Connectionist Temporal Classification(CTC)——李宏毅人类语言处理学习笔记

CTC

ctc可以做到online recognition,它只需要encoder,在进行语音辨识时,要选择一些可以支持online recognition的encoder,例如:单向RNN。
在这里插入图片描述
但是输入的x1——声音讯号特征,其frame很小,往往代表了少量信息甚至null,因此较难判断是哪个token,所以在ctc的token中引入了一个null。
在这里插入图片描述
输出中有一部分是null,但实际输出中不能有null,所以ctc会做一下后处理,即合并token,移除null。
在这里插入图片描述

怎么训练呢?

question:不知道正确的输出是什么,4个位置应该放什么。
在这里插入图片描述
自己制造合适的label,穷举所有的alignment。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

来自博客添加链接描述
在这里插入图片描述

CTC存在的问题

假设前三个frame都是ccc,正常来说是最后输出的是c。但是第二个没识别成功认为它是null,那么前三个frame就是c null c,最后输出就是cc,就结巴了…,但是也没有这么糟糕,我们可以在encoder中做一些处理,比如已经输出c了我们则降低输出c的概率。
在这里插入图片描述

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

我是小蔡呀~~~

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值