我参加 NVIDIA Sky Hackathon--- 浅谈数据集处理的心得和教训

本文作者参加NVIDIA Sky Hackathon,挑战智能语音垃圾分类任务,分享了在处理ASR语音和CV图像数据集时的经验与教训,包括数据采集、制作流程及团队协作心得。
摘要由CSDN通过智能技术生成

目录

赛事题目:挑战智能语音垃圾分类任务

ASR 语音数据集

音频采样

语音数据集制作流程

踩坑 & 建议:

CV 图像数据集

图像搜集

图像数据集制作

踩坑 & 建议

心得体会

建立范式

团队协作

探索试点


赛事题目:挑战智能语音垃圾分类任务

垃圾是世界范围内日益严重的环境问题,实行垃圾分类,关系节约使用资源,也是社会文明水平的一个重要体现。

NVIDIA 正在努力加强技术研究,致力于开发创新计算解决方案,同时鼓励开发者们利用 NVIDIA 各种 AI 开发工具,激发创造力,科技赋能,给垃圾分类注入 “智慧力量”。

本次 Hackathon 活动以 “挑战智能语音垃圾分类任务” 为主题。

赛事涵盖:语音识别、垃圾检测及用户接口的 web 页面实现等。

图 1-1 - 第七届黑客松比赛应用流程图
图 2-1-Audacity 界面截图

ASR 语音数据集

音频采样

录制工具:Audacity

音频要求:①录制声道:立体声

②项目采样率:44100HZ

③音频格式:wav

(图 2-1 红色圆圈标记为①②设定处)

按钮解释 (参见矩形方框):

①红色:开始录制

②蓝色:结束录制

③黄色:播放音频

图 2-1-Audacity 界面截图

音频内容: 语句公式:请检测出 rubbish

依据比赛任务要求,rubbish 共有三类:瓶子、纸箱、果皮

语音数据集制作流程

图 2-2-ASR 音频数据集制作流程图

向 jupyter notebook 中导入音频(建议新建一个文件夹,专门用于存储音频)

红色圆圈圈住的按钮就是上传按钮

上传文件后,可以在 jupyter 上建立文件的相对路径(区别于物理机上的绝对路径,便于引用)

如我的就是 yy/

图 2-3-jupyter 音频文件夹
# 导入librosa音频工具包获取音频时长,用于制作语音数据集
import librosa 
#/yy/all6.wav为待读取音频相对路径
time = librosa.get_duration(filename="/yy/all6.wav")
print(time)

踩坑 & 建议:

1. 音频要求未达标:

音频采样录制声道要求为单声道,误设置为立体声道

ps:单声道只有一条音轨,立体声双音轨

有时候可能设置了单声道,录制的时候也是显示单音轨,但打开后却是双音轨,这时候需要设置默认录制声道。

2. 录制 / 播放没有声音:连接蓝牙后,录制 / 播放没有声音,可能是软件滞后,需要手动更换设备(图 2-1 黄色高亮),方可正常录制播放。

3. 音频纯净度:有时候受限于现实环境,采样音频杂音过多,需要过滤杂音。

操作:顶部导航栏 << 效果<< 降噪

4. 参考标签

格式一定要正确,否则一步错步步错

参见下面

"1.wav""duration": 3.1463038548752835,"text”:"你好大白请让我进入小区”
 文件名              音频时长                          文本内容
#符号一定要用半角符号(即英文符号),中文符号会报错。

5. 标签文本

①可以把所有要录制的内容,先做成预标签文本,即除了音频时长外,其他都填写了。这样直接照着标签文件读,保证标签文本和音频内容一致。

②建议把所有标签文本整理到一个文件里,避免繁琐过程。

③建议文件名带有显而易见的顺序。

6. 噪音是否提高模型的泛化能力?(×)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值