CTC 讲解和python实现

最新推荐文章于 2024-05-17 09:43:14 发布

dhj_tsukuba

最新推荐文章于 2024-05-17 09:43:14 发布

阅读量1.2k

点赞数 2

分类专栏： kaldi-语音识别实践部分文章标签：语音识别

本文链接：https://blog.csdn.net/dhj_tsukuba/article/details/115964287

版权

文章目录损失函数解码和语言模型结合代码实现讲解比较详细的博客CTC的原始paper在大多数语音识别任务中，我们都缺少文本和音频特征的alignment，Connectionist Temporal Classification作为一个损失函数，用于在序列数据上进行监督式学习，可以不需要对齐输入数据及标签。对于输入序列X=[x1,x2,..,xT]X=[x_1, x_2, .., x_T]X=[x1,x2,..,xT] 和输出序列 Y=[y1,y2,...,yU]Y = [y_1, y_2.

摘要由CSDN通过智能技术生成

文章目录

讲解比较详细的博客
 CTC的原始paper

在大多数语音识别任务中，我们都缺少文本和音频特征的alignment，Connectionist Temporal Classification作为一个损失函数，用于在序列数据上进行监督式学习，可以不需要对齐输入数据及标签。

对于输入序列 $X=[x_1, x_2, .., x_T]$ 和输出序列 $Y = [y_1, y_2, ..., y_U ]$ ，我们希望训练一个模型使条件概率 $P (Y ∣ X)$ 达到最大化，并且给定新的输入序列时我们希望模型可以推测出最优的输出序列， $Y^*=\underset{Y}{argmax}\space P(Y|X)$ ，而CTC算法刚好可以同时做到训练和解码。

损失函数

语音识别任务中，大多数情况下都是输入序列长度大于文本序列长度，所以CTC算法的alignment方案也是基于将连续的几帧输入合并对应到某一个输出的token，即多对一，同时除了训练数据中所有的token集合，CTC还引入了一个空白token，在这里用 $\epsilon$ 指代，他没有实际意义并且在最终输出序列中被移除，但这个token对生成alignment很有帮助。

CTC算法生成最终token输出序列步骤如下：
生成和输入序列长度相同的alignment → 合并相同token → 删除空白token → token序列

上面步骤准确来讲是解码的步骤，解码之前我们要训练模型，训练模型就需要损失函数，或者说需要一个被优化的目标函数：
$P(Y|X)=\sum_{所有合法alignment}\prod \limits_{t=1}^Tp_t(a_t|X)$

最低0.47元/天解锁文章

dhj_tsukuba

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
2
评论
CTC 讲解和python实现

文章目录损失函数解码和语言模型结合代码实现讲解比较详细的博客CTC的原始paper在大多数语音识别任务中，我们都缺少文本和音频特征的alignment，Connectionist Temporal Classification作为一个损失函数，用于在序列数据上进行监督式学习，可以不需要对齐输入数据及标签。对于输入序列X=[x1,x2,..,xT]X=[x_1, x_2, .., x_T]X=[x1,x2,..,xT] 和输出序列 Y=[y1,y2,...,yU]Y = [y_1, y_2.
复制链接

扫一扫