ASR语音转文字模型——项目落地

模型:

PaddlePaddle-DeepSpeech

训练数据集:

Aishell:178小时,16khz,16bit,400人录制,涉及智能家居、无人驾驶、工业生产等11个领域的中文语音库。
Free ST-Chinese-Mandarin-Corpus:500小时,16khz,16bit,855人录制。安静的室内环境下,通过单个碳粒麦克风录取,文本选取网络聊天智能音箱控制等。
THCHS-30:30小时,16khz,30人录制,清华大学30小时中文语音库。安静的办公室环境下,通过单个碳粒麦克风录取,文本选取自大容量的新闻。

DeepSpeech-1300:1300小时中文语音库

效果:

训练集准确率94.5%,测试准确率约80%

注意事项:

1.仅能识别普通话,对于方言、非中文语言无法识别;

2.对于背景声音过大的音频,识别准确率较低,模型训练过程中提供了以下六个数据增强组件,用于缓解噪声干扰问题:音量扰动、速度扰动、移动扰动、在线贝叶斯归一化、噪声干扰(需要背景噪音的音频文件)、脉冲响应(需要脉冲音频文件);

3.模型训练所使用的数据均为单条语句,平均长度在十秒以内,所以模型在测试时对于过长的音频识别准确率很低,但短视频的音频数据长度大多在100秒以上,所以在实际应用过程中,先提取视频音频,然后按30秒的时长对音频进行切割,分段转换成文本,然后在拼起来,输出最终的转换结果;

4.视频转音频所用到的工具是ffmpeg;

模型原理:

论文题目:

Deep Speech 2: End-to-End Speech Recognition in English and Mandarin

论文链接:

https://arxiv.org/pdf/1512.02595.pdf

模型结构:

DeepSpeech是完全End-toEnd的语音识别系统,输入是语音的频谱,输出是字符串,核心技术是CTC算法,核心结构实际上是一个RNN。

模型由5个隐藏层组成,可以分为三个部分:Conv layer, Recurrent layer and FC layer。

前三层为是全连接层,组成Conv layer,对于输入x,我们用 hl 表示第l层,h0

  • 2
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值