数据集来自Eating Sound Collection,数据集中包含20种不同食物的咀嚼声音,赛题任务是给这些声音数据建模,准确分类。作为零基础入门语音识别的新人赛,本次任务不涉及复杂的声音模型、语言模型,希望大家通过两种baseline的学习能体验到语音识别的乐趣。
train文件夹:完整的训练集;
train_sample文件夹:部分训练集;
test文件夹:测试集;
目前由于天池实验室存储限制,在DSW上参与本场比赛建议使用压缩后的数据集
赛题使用准确率(Accuracy)衡量选手结果与真实标签的差异性。
源码解读
建立字典与逆字典
遍历数据文件,计算梅尔频谱
搭建cnn网络
训练模型
预测测试集
提交结果