Connectionist Temporal Classification(CTC)、音识别模型小型综述和一个简易的语音识别模型的tensorflow实现

最新推荐文章于 2022-12-03 21:33:36 发布

SrdLaplaceGua

最新推荐文章于 2022-12-03 21:33:36 发布

阅读量1.3k

点赞数 2

分类专栏：机器学习实用技巧程序文章标签：语音识别 tensorflow 代码 CTC 综述

本文链接：https://blog.csdn.net/SrdLaplace/article/details/83114268

版权

本文介绍了CTC（Connectionist Temporal Classification）在端到端语音识别中的应用，避免了传统需要字或音素级别的标注。内容包括语音识别的评价指标、模型结构、前向后向算法、损失函数及其梯度、解码策略以及一个基于TensorFlow的简易语音识别模型的实现。还探讨了不同时期的语音识别技术发展和实验结果。

摘要由CSDN通过智能技术生成

CTC是一种端到端的语音识别技术，他避免了需要字或者音素级别的标注，只需要句子级别的标注就可以进行训练，感觉非常巧妙，也很符合神经网络浪潮人们的习惯。特别是LSTM+CTC相较于之前的DNN+HMM，LSTM能够更好的捕捉输入中的重要的点（LSTM随着状态数目增加参数呈线性增加，而HMM会平方增加），CTC打破了隐马尔科夫的假设，把整个模型从静态分类变成了序列分类。

语音识别的评价指标

在语音识别中，在数据集 $S$ 上评价模型 $h$ 的好坏一般用标签错误率（Label Error Rate）: $LER(h,S)=\frac{1}{|S|}\sum_{(x,z)\in S}\frac{ED(h(x),z)}{|z|}$ ， $E D (p, q)$ 表示 $p$ 和 $q$ 两个序列的编辑距离。

语音识别模型

在语音识别中，提取语音信号的MFCC特征 $x$ ，经过神经网络或者GMM处理后经过一个softmax层得到一个每个音素的后验概率 $y$ ， $y$ 的类别有 $∣ L ∣ + 1$ 种， $L$ 是可能出现的字符，加1为建个符。定义 $B$ 为简单的压缩变换，把路径 $\pi$ （路径就是一种音素出现的路线）中相邻相同的音素合并，空音素去掉，再特征 $x$ 下定序列 $l$ 出现的条件概率为：

$p(l|x)=\sum_{\pi=\in B^{-1}(l)}p(\pi|x)$

前向后向算法（Forward-Backward Algorithm）

定义符号 $l_{p:q}$ 表示符号序列 $KaTeX parse error: Expected '}', got 'EOF' at end of input: …..l_{q-1},l_{q}$ ，容易得知，要想使得路径 $B(\pi')$ 满足一定的 $l$ ， $\pi$ 路线上的状态跳转需要满组 $l^{'}$ 的先后顺序，不同的符号之间可以插入blank。

定义前向变量 $\alpha(t,u)$ ： $\alpha_t(t,u)=\sum_{\pi\in N^T,B(\pi_{1:t})=1_{1:u}}\prod_{t'=1}^ty_{\pi_{t'}}^{t'}$

$\alpha(t,s)$ 可以递推的用 $\alpha(t-1,s)，\alpha(t-1,s-1)$ 计算。

为了方便起见，我们在 $l$ 相邻标签之间插入了空白（blank），在开始和末尾也加入了空白，这样我们用 $l^{'}$ 表示这个新的标记， $l^{'}$ 的长度就为 $2 ∣ l ∣ + 1$ 。在计算 $l^{'}$ 前缀的概率中，我们允许空白和非空白标签之间转移，那么我么有动态规划的初始条件：