【我参加NVIDIA Sky Hackathon】ASR篇

最新推荐文章于 2024-07-12 15:56:08 发布

猿究院_胡HUHUHUUHUHU

最新推荐文章于 2024-07-12 15:56:08 发布

阅读量446

点赞数 3

文章标签：人工智能

本文链接：https://blog.csdn.net/m0_65365393/article/details/128202825

版权

项目说明：通过NVIDIA公司提供的Tao来训练模型，做出一个语音识别和图像识别垃圾的模型

在ASR数据集中，为了使得模型训练效果更明显，我们在数据搜集的过程中，邀请了不同年龄段的人来进行语音的录制，而且在录制过程中我们以不同的语速、语调以及声音的高低录制的不同的音频文件。为了使模型充分的进行深度学习我们有部分的音频是在一定的嘈杂环境下录制的，但是也考虑到嘈杂的声音可能对模型学习有一定的影响，所以我们嘈杂的声音是规律的，且噪音的音量也控制的一定的范围内。

ASR部分我们收集了约300条训练数据，其中包含若干男性和女性的声音年龄约为20岁和40岁，单声道采样率44100保存为wav格式的普通话。数据集如下所示：

Task	Text	NO.of Audio
ASR	请检测出果皮	42
ASR	请检测出瓶子	42
ASR	请检测出纸箱	42
ASR	请检测出果皮和瓶子	42
ASR	请检测出果皮和纸箱	42
ASR	请检测出纸箱和瓶子	42
ASR	请检测出果皮、瓶子和纸箱	42

猿究院_胡HUHUHUUHUHU

关注

3
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
【我参加NVIDIA Sky Hackathon】ASR篇

项目说明：通过NVIDIA公司提供的Tao来训练模型，做出一个语音识别和图像识别垃圾的模型在ASR数据集中，为了使得模型训练效果更明显，我们在数据搜集的过程中，邀请了不同年龄段的人来进行语音的录制，而且在录制过程中我们以不同的语速、语调以及声音的高低录制的不同的音频文件。为了使模型充分的进行深度学习我们有部分的音频是在一定的嘈杂环境下录制的，但是也考虑到嘈杂的声音可能对模型学习有一定的影响，所以我们嘈杂的声音是规律的，且噪音的音量也控制的一定的范围内。ASR部分我们收集了约300条训练数据，其中包含
复制链接

扫一扫