Listen,Attend,and Spell(LAS)——李宏毅人类语言处理学习笔记

在这里插入图片描述

Listen

Encoder目标:
移除语者之间的差异,去掉noises,提取出与语音辨识的相关信息
输入长度(T)和输出长度一样
在这里插入图片描述
encoder有很多做法:
在这里插入图片描述
在这里插入图片描述
CNN见文章:CNN-卷积神经网络

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
self-attention见文章self-attention
在这里插入图片描述
在这里插入图片描述
相邻之间差异不是很大,为了节省计算量,让你的训练更有效率,通常会采用down sampling
Pyramid RNN将两个结合,然后送到下一层。Pooling over time则是两个中取一个送到下一层。

在这里插入图片描述

Attention

match这个function可以自己定义,常用的是dot-product attention,作用是计算h1(Key)和z0(Query)的相似度。
在这里插入图片描述
还有一种additive attention
在这里插入图片描述
c0(在文献上常常被成为Context Vector)会被当做decoder即RNN input
在这里插入图片描述
distribution(是通过softmax的)会给每一个token一个概率值
在这里插入图片描述

Spell

假设输入的一段声音讯号是cat,则model先后的需要输出c——a——t
先输出c
在这里插入图片描述
输出c后,用z1再次计算新的阿尔法的值
在这里插入图片描述
注意:a是由上一层的c和z2共同得到
在这里插入图片描述
EOS 代表辨识结束
在这里插入图片描述

Beam Search

red path:每一次都选择概率最大的路径
在这里插入图片描述
Greedy Decoding不见得能找到几率最大的那个
在这里插入图片描述
解决上述问题的方法:Beam Search,每次都保留B个最好的路径。Beam size的大小需要自己去考量的。
在这里插入图片描述

Training

输入是cat,我们希望Cross entropy越小越好,换言之p©越大越好
在这里插入图片描述
在这里插入图片描述

Why Teacher Forcing?

如果前面的输出是错误的
在这里插入图片描述
经过一连串的training后,Model变厉害了,得到了正确的输出
在这里插入图片描述

不管前面输出什么只专注训练c——>a这件事
在这里插入图片描述

Back to Attention

在这里插入图片描述
在这里插入图片描述
在语音识别上我们希望阿尔法是由左向右
在这里插入图片描述
而不是阿尔法乱跳
在这里插入图片描述
所以第一篇用LAS做语音辨识的作者加了一个机制:
Location-aware attention
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

Limitation of LAS

在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

我是小蔡呀~~~

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值