ASR-详解CTC(Connectionist Temporal Classification)

CTC(Connectionist Temporal Classification)是解决序列到序列问题的一种方法,尤其适用于语音识别和OCR等场景。它避免了输入和输出的对齐需求,通过引入空白字符来处理不同长度的输入和输出。CTC的损失函数基于所有可能的输出路径概率,采用动态规划进行高效计算。预测阶段通常采用贪婪搜索或束搜索策略。尽管CTC存在条件独立和单调对齐等假设限制,但其在端到端模型中仍具有重要价值。
摘要由CSDN通过智能技术生成

本文主要参考自Hannun等人在distill.pub发表的文章(https://distill.pub/2017/ctc/),感谢Hunnun等人对CTC的梳理。

简介

在语音识别中,我们的数据集是音频文件和其对应的文本,不幸的是,音频文件和文本很难再单词的单位上对齐。

除了语言识别,在OCR,机器翻译中,都存在类似的Sequence to Sequence结构,同样也需要在预处理操作时进行对齐,但是这种对齐有时候是非常困难的。如果不使用对齐而直接训练模型时,由于人的语速的不同,或者字符间距离的不同,导致模型很难收敛。

CTC(Connectionist Temporal Classification)是一种避开输入与输出手动对齐的一种方式,是非常适合语音识别或者OCR这种应用的。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值