Deep Speech：端到端的语音识别

最新推荐文章于 2025-04-10 10:36:55 发布

左左左左想

最新推荐文章于 2025-04-10 10:36:55 发布

阅读量1.3w

点赞数 4

分类专栏：深度学习文章标签：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Left_Think/article/details/75577512

版权

深度学习专栏收录该内容

7 篇文章

订阅专栏

本文为百度的Deep Speech的论文笔记，本人为深度学习小白，文章内如有错误，欢迎请各位指出~
附上我的github主页，欢迎各位的follow~~~献出小星星~

什么是端到端？

对于传统的语音识别，通常会分为3个部分：语音模型，词典，语言模型。语音模型和语言模型都是分开进行训练的，因此这两个模型优化的损失函数不是相同的。而整个语音识别训练的目标（WER：word error rate）与这两个模型的损失函数不是一致的。

对于端到端的语音识别，模型的输入就为语音特征（输入端），而输出为识别出的文本（输出端），整个模型就只有一个神经网络的模型，而模型的损失采用的CTC Loss。这样模型就只用以一个损失函数作为训练的优化目标，不用再去优化一些无用的目标了。

Deep Speech1

Deep Speech1的结构如下图所示：

这里写图片描述

全连接层

网络的前三层为全连接层，第一个全连接层的输入为语音的频谱数据（注意：图中是把5帧的频谱数据当做一个 $x_t$ 输入到隐藏单元中，因为可能一个单词的发音对应了多个帧的频谱数据）。全连接层的输出计算公式为：

h(l)t=g(W(l)h(l−1)t+b(l)) $h_t^{(l)}=g(W^{(l)}h_t^{(l-1)}+b^{(l)})$

其中 $g()$ 为隐藏单元的激活函数，本文中使用了clipped ReLu作为隐藏单元的激活函数， $W$ 为权重矩阵， $b$ 为偏置， $h_t^{(l-1)}$ 为第 $(l-1)$ 层，第 $t$ 个单元的输出。

文章中使用的clipped ReLu函数表达式为：

g(z)=min{max{0,z},20} $g(z)=min\{max\{0,z\},20\}$

双向RNN层

第4层为双向的RNN层，其中 $h_t^{(f)}$ 为前向（从左至右）的rnn层， $h_t^{(b)}$ 为反向（从右至左）的rnn层，计算公式如下所示：

这里写图片描述

以前向RNN为例，其中

这里写图片描述：代表了第三层第t个隐藏单元的输出与权重矩阵的乘积；

这里写图片描述：代表了第t-1个前向传播RNN的输出和权重矩阵的乘积；

这里写图片描述：代表了偏置

而此处的g()为之前叙述的clipped ReLu函数。

而网络的第五层则是非RNN层，主要是将第4层中的前向RNN和反向RNN求和作为隐藏单元的输出，然后经过的计算与普通的全连接层相同，其计算公式如下所示：

最后的第六层为softmax层，预测的是每个时间段内，将该段时间的语音识别为每个字母的概率。

模型采用的损失函数为CTC Loss，有关于CTC Loss的相关介绍可以查看我的另一篇博客。

Deep Speech2

左左左左想

博客等级

码龄11年

15
原创

78
点赞

162
收藏

57
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

上一篇：: TACOTRON:端到端的语音合成

下一篇：: Logistic回归

最新评论

语音识别：深入理解CTC Loss原理
太气了准备莱万汀: 不是这样的，CTC不同的对齐序列可以对齐映射到同一个输出序列上，所以要在解码算法里面考虑对齐序列的合并，直接用贪心不保证能求到最优解，可以看https://distill.pub/2017/ctc/这篇文章讲的CTC的beam search
语音识别：深入理解CTC Loss原理
喜欢什么的只是说说而已: CTC前一帧解码内容貌似不影响后一帧解码，是不是不用语言模型的话，Beam Search就没用了？
深度学习--防止过拟合的几种方法
ihh2021: 左老师，66666
TACOTRON:端到端的语音合成
weixin_43917614: 讲的很好！之前学习CV方向对序列模型不是很清楚，博主讲的是非常清楚了！
语音识别：深入理解CTC Loss原理
_duziteng_ 回复 Nova_yxx: 人辛辛苦苦整理，你既然已经熟悉都知道哪些错了，指正就好了。带什么脏话？

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。