李宏毅2020人类语言处理—P4

最新推荐文章于 2022-11-25 22:42:43 发布

卢容和

最新推荐文章于 2022-11-25 22:42:43 发布

阅读量235

点赞数

分类专栏：李宏毅2020深度学习——人类语言处理文章标签：自然语言处理

本文链接：https://blog.csdn.net/qq_41329791/article/details/109956186

版权

李宏毅2020深度学习——人类语言处理专栏收录该内容

9 篇文章 1 订阅

订阅专栏

Model 1

Connectionist Temporal Classification，CTC [Graves,et al.ICML,2016] 解决on-line语音辨识（不需要听完整句话再作辨识），只有一个encoder模块，且不能使用双向RNN。

问题： 每个acoustic input只代表10ms的语音，不是每个input都包含一个独特的token信息。

所以模型要知道什么时候output空白信息（NULL），即这段语音听不到有用信息。
如何处理空白信息和相同的语音

预测size=V+1

问题： 没有decoder，每个input对于输出一个output来预测声音所对应的文字。但明显input sequence ≠ output sequence，同时我们无法标注哪个声音片段对应哪个文字。

穷举所有语音可能对应的文字序列。

Issue

CTC：Linear Classify ≈ decoder，which only attend on one vector，and each output is decided independently.
出现结巴的状况，连续出现两各个c，cc。
在这里插入图片描述

Model 2

RNN Transducer，RNN-T [Graves,ICML workshop,2012]
Recurrent Neural Aligner，RNA [Sak,et al.INTERSPEECH,2017]

RNA 将CTC中的Linear Classify改为LSTM，改善上一个的输出影响本次的输出。
在这里插入图片描述
RNN-T 解决one vector map to multiple tokens，CTC是take one vector as input，output one token. 比如 “th”是连在一起发音的。
RNN-T接受一个frame（hidden layer传过来的信息），模型连续输出听到的多个tokens，直到满意（预测不到再多的token则输出NULL）。

过程

问题：
proble like CTC，training时如何制作label。
method like CTC，穷举可能的alignment情况。

RNN-T additional RNN

额外训练一个RNN，作用类似于model language。

additional RNN会无视predict为NULL的结果。接收其余的tokens，并把RNN的结果作用于~~LSTM~~ Linear Classify的下一步。（RNN-T不是直接把Linear Classify换成LSTM，而是额外增加一个RNN）
输出t会影响输出h，红色线。NULL值不会影响RNN改变，但RNN会影响每一个time step的Linear Classify。
language model：ignore speec，only consider tokens. 因为我们是穷举所有的alignment，即label。
language model can train from text（easy to collect），no NULL in text。It is critical for training algorithm.

在这里插入图片描述