ASR-详解CTC(Connectionist Temporal Classification)

u013250861

已于 2024-05-26 19:26:50 修改

阅读量312

点赞数

分类专栏： # Audio/ASR&TTS 文章标签：语音识别

于 2024-05-13 23:25:52 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013250861/article/details/138824096

版权

Audio/ASR&TTS 专栏收录该内容

53 篇文章 ¥15.90 ¥99.00

订阅专栏

超级会员免费看

CTC（Connectionist Temporal Classification）是解决序列到序列问题的一种方法，尤其适用于语音识别和OCR等场景。它避免了输入和输出的对齐需求，通过引入空白字符来处理不同长度的输入和输出。CTC的损失函数基于所有可能的输出路径概率，采用动态规划进行高效计算。预测阶段通常采用贪婪搜索或束搜索策略。尽管CTC存在条件独立和单调对齐等假设限制，但其在端到端模型中仍具有重要价值。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文主要参考自Hannun等人在distill.pub发表的文章（https://distill.pub/2017/ctc/），感谢Hunnun等人对CTC的梳理。

简介

在语音识别中，我们的数据集是音频文件和其对应的文本，不幸的是，音频文件和文本很难再单词的单位上对齐。

除了语言识别，在OCR，机器翻译中，都存在类似的Sequence to Sequence结构，同样也需要在预处理操作时进行对齐，但是这种对齐有时候是非常困难的。如果不使用对齐而直接训练模型时，由于人的语速的不同，或者字符间距离的不同，导致模型很难收敛。

CTC(Connectionist Temporal Classification)是一种避开输入与输出手动对齐的一种方式，是非常适合语音识别或者OCR这种应用的。

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。