CTC模型简介

最新推荐文章于 2024-04-20 10:22:37 发布

zchang81

最新推荐文章于 2024-04-20 10:22:37 发布

阅读量6k

点赞数 2

分类专栏： RNN/LSTM 文章标签： RNN CTC 语音识别

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zchang81/article/details/76887342

版权

RNN/LSTM 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

CTC（Connectionist temporal classification），可以理解为基于神经网络的时序类分类。

比如语音识别的一帧数据，很难给出一个label，但是几十帧数据就容易判断出对应的发音label。
语音识别声学模型的训练属于监督学习，需要知道每一帧对应的label才能进行有效的训练，在训练的数据准备阶段必须要对语音进行强制对齐。
CTC的引入可以放宽了这种一一对应的限制要求，只需要一个输入序列和一个输出序列即可以训练。

有两点好处：

1）、不需要对数据对齐和一一标注；

2）、CTC直接输出序列预测的概率，不需要外部的后处理。

CTC解决这一问题的方法是，在标注符号集中加一个空白符号blank，然后利用RNN进行标注，最后把blank符号和预测出的重复符号消除。比如有可能预测除了一个"--a-bb"，就对应序列"ab"。这样就让RNN可以对长度小于输入序列的标注序列进行预测了。
RNN的训练需要用到前向后向算法（Forward-backward algorithm），对于给定预测序列，比如“ab”，在各个字符间插入空白符号，建立起篱笆网络（Trellis），然后对将所有可能映射到给定预测的序列都穷举出来求和。

如上图，传统的Framewise训练需要进行语音和音素发音的对齐，比如“s”对应的一整段语音的标注都是s；而CTC引入了blank（该帧没有预测值），“s”对应的一整段语音中只有一个spike（尖峰）被认为是s，其他的认为是blank。对于一段语音，CTC最后的输出是spike的序列，不关心每一个音素对应的时间长度。

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
CTC模型简介

CTC（Connectionist temporal classification），可以理解为基于神经网络的时序类分类。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。