目录
赛事题目:挑战智能语音垃圾分类任务
垃圾是世界范围内日益严重的环境问题,实行垃圾分类,关系节约使用资源,也是社会文明水平的一个重要体现。
NVIDIA 正在努力加强技术研究,致力于开发创新计算解决方案,同时鼓励开发者们利用 NVIDIA 各种 AI 开发工具,激发创造力,科技赋能,给垃圾分类注入 “智慧力量”。
本次 Hackathon 活动以 “挑战智能语音垃圾分类任务” 为主题。
赛事涵盖:语音识别、垃圾检测及用户接口的 web 页面实现等。
ASR 语音数据集
音频采样
录制工具:Audacity
音频要求:①录制声道:立体声
②项目采样率:44100HZ
③音频格式:wav
(图 2-1 红色圆圈标记为①②设定处)
按钮解释 (参见矩形方框):
①红色:开始录制
②蓝色:结束录制
③黄色:播放音频
音频内容: 语句公式:请检测出 rubbish
依据比赛任务要求,rubbish 共有三类:瓶子、纸箱、果皮
语音数据集制作流程
向 jupyter notebook 中导入音频(建议新建一个文件夹,专门用于存储音频)
红色圆圈圈住的按钮就是上传按钮
上传文件后,可以在 jupyter 上建立文件的相对路径(区别于物理机上的绝对路径,便于引用)
如我的就是 yy/
# 导入librosa音频工具包获取音频时长,用于制作语音数据集
import librosa
#/yy/all6.wav为待读取音频相对路径
time = librosa.get_duration(filename="/yy/all6.wav")
print(time)
踩坑 & 建议:
1. 音频要求未达标:
音频采样录制声道要求为单声道,误设置为立体声道
ps:单声道只有一条音轨,立体声双音轨
有时候可能设置了单声道,录制的时候也是显示单音轨,但打开后却是双音轨,这时候需要设置默认录制声道。
2. 录制 / 播放没有声音:连接蓝牙后,录制 / 播放没有声音,可能是软件滞后,需要手动更换设备(图 2-1 黄色高亮),方可正常录制播放。
3. 音频纯净度:有时候受限于现实环境,采样音频杂音过多,需要过滤杂音。
操作:顶部导航栏 << 效果<< 降噪
4. 参考标签
格式一定要正确,否则一步错步步错
参见下面
"1.wav""duration": 3.1463038548752835,"text”:"你好大白请让我进入小区”
文件名 音频时长 文本内容
#符号一定要用半角符号(即英文符号),中文符号会报错。
5. 标签文本
①可以把所有要录制的内容,先做成预标签文本,即除了音频时长外,其他都填写了。这样直接照着标签文件读,保证标签文本和音频内容一致。
②建议把所有标签文本整理到一个文件里,避免繁琐过程。
③建议文件名带有显而易见的顺序。
6. 噪音是否提高模型的泛化能力?(×)