ASR语音转文字模型——项目落地

最新推荐文章于 2024-05-24 20:07:46 发布

码一码码码

最新推荐文章于 2024-05-24 20:07:46 发布

阅读量3.1k

点赞数 2

本文链接：https://blog.csdn.net/weixin_39586997/article/details/118358075

版权

PaddlePaddle-DeepSpeech

Aishell：178小时，16khz，16bit，400人录制，涉及智能家居、无人驾驶、工业生产等11个领域的中文语音库。

Free ST-Chinese-Mandarin-Corpus：500小时，16khz，16bit，855人录制。安静的室内环境下，通过单个碳粒麦克风录取，文本选取网络聊天智能音箱控制等。

THCHS-30：30小时，16khz，30人录制，清华大学30小时中文语音库。安静的办公室环境下，通过单个碳粒麦克风录取，文本选取自大容量的新闻。

DeepSpeech-1300：1300小时中文语音库

训练集准确率94.5%，测试准确率约80%

1.仅能识别普通话，对于方言、非中文语言无法识别；

2.对于背景声音过大的音频，识别准确率较低，模型训练过程中提供了以下六个数据增强组件，用于缓解噪声干扰问题：音量扰动、速度扰动、移动扰动、在线贝叶斯归一化、噪声干扰（需要背景噪音的音频文件）、脉冲响应（需要脉冲音频文件）；

3.模型训练所使用的数据均为单条语句，平均长度在十秒以内，所以模型在测试时对于过长的音频识别准确率很低，但短视频的音频数据长度大多在100秒以上，所以在实际应用过程中，先提取视频音频，然后按30秒的时长对音频进行切割，分段转换成文本，然后在拼起来，输出最终的转换结果；

4.视频转音频所用到的工具是ffmpeg；

论文题目：

Deep Speech 2: End-to-End Speech Recognition in English and Mandarin

论文链接：

模型结构：

DeepSpeech是完全End-toEnd的语音识别系统，输入是语音的频谱，输出是字符串，核心技术是CTC算法，核心结构实际上是一个RNN。

模型由5个隐藏层组成，可以分为三个部分：Conv layer， Recurrent layer and FC layer。

前三层为是全连接层，组成Conv layer，对于输入x，我们用 hl 表示第l层，h0

关注