我参加 NVIDIA Sky Hackathon--- 浅谈数据集处理的心得和教训

方青然

已于 2022-11-28 13:05:38 修改

阅读量637

点赞数

分类专栏：比赛复盘文章标签： deep learning python

于 2022-11-27 11:29:32 首次发布

本文链接：https://blog.csdn.net/m0_74046692/article/details/128062028

版权

本文作者参加NVIDIA Sky Hackathon，挑战智能语音垃圾分类任务，分享了在处理ASR语音和CV图像数据集时的经验与教训，包括数据采集、制作流程及团队协作心得。

摘要由CSDN通过智能技术生成

赛事题目：挑战智能语音垃圾分类任务

垃圾是世界范围内日益严重的环境问题，实行垃圾分类，关系节约使用资源，也是社会文明水平的一个重要体现。

NVIDIA 正在努力加强技术研究，致力于开发创新计算解决方案，同时鼓励开发者们利用 NVIDIA 各种 AI 开发工具，激发创造力，科技赋能，给垃圾分类注入 “智慧力量”。

本次 Hackathon 活动以 “挑战智能语音垃圾分类任务” 为主题。

赛事涵盖：语音识别、垃圾检测及用户接口的 web 页面实现等。

ASR 语音数据集

音频采样

录制工具：Audacity

音频要求：①录制声道：立体声

②项目采样率：44100HZ

③音频格式：wav

（图 2-1 红色圆圈标记为①②设定处）

按钮解释 (参见矩形方框):

①红色：开始录制

②蓝色：结束录制

③黄色：播放音频

音频内容: 语句公式：请检测出 rubbish

依据比赛任务要求，rubbish 共有三类：瓶子、纸箱、果皮

语音数据集制作流程

向 jupyter notebook 中导入音频（建议新建一个文件夹，专门用于存储音频）

红色圆圈圈住的按钮就是上传按钮

上传文件后，可以在 jupyter 上建立文件的相对路径（区别于物理机上的绝对路径，便于引用）

如我的就是 yy/

# 导入librosa音频工具包获取音频时长,用于制作语音数据集
import librosa 
#/yy/all6.wav为待读取音频相对路径
time = librosa.get_duration(filename="/yy/all6.wav")
print(time)

踩坑 & 建议：

1. 音频要求未达标：

音频采样录制声道要求为单声道，误设置为立体声道

ps：单声道只有一条音轨，立体声双音轨

有时候可能设置了单声道，录制的时候也是显示单音轨，但打开后却是双音轨，这时候需要设置默认录制声道。

2. 录制 / 播放没有声音：连接蓝牙后，录制 / 播放没有声音，可能是软件滞后，需要手动更换设备（图 2-1 黄色高亮），方可正常录制播放。

3. 音频纯净度：有时候受限于现实环境，采样音频杂音过多，需要过滤杂音。

操作：顶部导航栏 << 效果＜< 降噪

4. 参考标签

格式一定要正确，否则一步错步步错

参见下面

"1.wav""duration": 3.1463038548752835，"text”:"你好大白请让我进入小区”
 文件名              音频时长                          文本内容
#符号一定要用半角符号（即英文符号），中文符号会报错。

5. 标签文本

①可以把所有要录制的内容，先做成预标签文本，即除了音频时长外，其他都填写了。这样直接照着标签文件读，保证标签文本和音频内容一致。

②建议把所有标签文本整理到一个文件里，避免繁琐过程。

③建议文件名带有显而易见的顺序。

6. 噪音是否提高模型的泛化能力？（×）

最低0.47元/天解锁文章

方青然

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录