李宏毅2020人类语言处理—P4

Model 1

Connectionist Temporal Classification,CTC [Graves,et al.ICML,2016] 解决on-line语音辨识(不需要听完整句话再作辨识),只有一个encoder模块,且不能使用双向RNN。

问题: 每个acoustic input只代表10ms的语音,不是每个input都包含一个独特的token信息。

  1. 所以模型要知道什么时候output空白信息(NULL),即这段语音听不到有用信息。
  2. 如何处理空白信息和相同的语音
预测size=V+1

问题: 没有decoder,每个input对于输出一个output来预测声音所对应的文字。但明显input sequence ≠ output sequence,同时我们无法标注哪个声音片段对应哪个文字。

穷举所有语音可能对应的文字序列。

Issue

CTC:Linear Classify ≈ decoder,which only attend on one vector,and each output is decided independently.
出现结巴的状况,连续出现两各个c,cc。
在这里插入图片描述

Model 2

  • RNN Transducer,RNN-T [Graves,ICML workshop,2012]
  • Recurrent Neural Aligner,RNA [Sak,et al.INTERSPEECH,2017]

RNA 将CTC中的Linear Classify改为LSTM,改善上一个的输出影响本次的输出。
在这里插入图片描述
RNN-T 解决one vector map to multiple tokens,CTC是take one vector as input,output one token. 比如 “th”是连在一起发音的。
RNN-T接受一个frame(hidden layer传过来的信息),模型连续输出听到的多个tokens,直到满意(预测不到再多的token则输出NULL)。

过程

问题:
proble like CTC,training时如何制作label。
method like CTC,穷举可能的alignment情况。

RNN-T additional RNN

额外训练一个RNN,作用类似于model language。

  • additional RNN会无视predict为NULL的结果。接收其余的tokens,并把RNN的结果作用于LSTM Linear Classify的下一步。(RNN-T不是直接把Linear Classify换成LSTM,而是额外增加一个RNN)
  • 输出t会影响输出h,红色线。NULL值不会影响RNN改变,但RNN会影响每一个time step的Linear Classify。
  • language model:ignore speec,only consider tokens. 因为我们是穷举所有的alignment,即label。
  • language model can train from text(easy to collect),no NULL in text。It is critical for training algorithm.

在这里插入图片描述

Model 3

Neural Transducer [Jaitly,et al.NIPS,2016] 一次读多个acoustic features,这里假设读w个(windows大小),用attention分配权重。每次移动w个acoustic features。

各种Attention机制
在这里插入图片描述

Model 4

Monotonic Chunkwise Attention (MoCha),[Chiu,et al.ICLR,2018],每次只decode一个token,

Z 0 Z^0 Z0 h 1 h^1 h1决定是否把windows的最后位置放在 h 1 h^1 h1,这里windows大小固定为4.

那标签呢,那个二分类(yes/no)怎么训练,视频没有讲

summary

在这里插入图片描述

李宏毅2020机器学习笔记中,有一个关于注意力机制(Attention)的部分。这部分内容主要介绍了生成模型(Generation)、注意力(Attention)、生成的技巧(Tips for Generation)以及指针网络(Pointer Network)。在生成模型中,主要讲述了如何生成一个有结构的对象。接下来介绍了注意力机制,包括一些有趣的技术,比如图片生成句子等。在生成的技巧部分,提到了一些新的技术以及可能遇到的问题和偏差,并给出了相应的解决方案。最后,稍微提到了强化学习。其中还提到了在输出"machine"这个单词时,只需要关注"机器"这个部分,而不必考虑输入中的"学习"这个部分。这样可以得到更好的结果。另外,还提到了关于产生"ei"的方法,其中有研究应用了连续动态模型自注意力(Self-attention)来学习位置编码的方法。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* [2020李宏毅机器学习笔记-Condition Generation by RNN&Attention](https://blog.csdn.net/zn961018/article/details/117593813)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] - *3* [李宏毅机器学习学习笔记:Self-attention](https://blog.csdn.net/weixin_44455827/article/details/128094176)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值