语音辨识的模型

最新推荐文章于 2024-01-07 11:19:37 发布

花飞雨追

最新推荐文章于 2024-01-07 11:19:37 发布

阅读量1.3k

点赞数

分类专栏：机器学习文章标签：自然语言处理

本文链接：https://blog.csdn.net/qq_36258516/article/details/107926140

版权

机器学习专栏收录该内容

8 篇文章 0 订阅

订阅专栏

语音辨识的模型

声明：本文章只用于个人总结，视频链接为https://www.bilibili.com/video/BV1nE411K7Tm?p=3。

根据不同的观点，现提出如下五个模型：

Listen,Attend,and Spell (LAS) seq-to-seq
Connectionist Temporal Classification (CTC)
RNN Transducer (RNN-T)
Neural Transducer
Monotonic Chunkwise Attention (MoChA)

本文将讲述LAS模型。

1 LAS模型介绍

LAS分为三个部分，即Listen,Attend,and Spell。

2 Listen部分（encoder）

先来看看Listen部分。输入是一段acoustic features{x¹,x²,…, x^t}，输出是另一段向量high-level representations{h¹,h²,…,h^t}。在这个阶段可以将语音里面杂音去掉，只抽出跟语音辨识相关的音序。

在这里插入图片描述

关于encoder部分可以用RNN、CNN等方法来实现，如下图所示。

在这里插入图片描述

CNN和RNN哪一种比较好呢？一般在文献中常见的方式是将二者结合起来使用，即前几层用CNN后几层用RNN。

由于声音讯号的acoustic feature中的向量数量太多，在做语音识别的时候，还需要对输入进行Down Sampling。常用的有Pyramid RNN、Pooling over time等方法。

在这里插入图片描述

3 Attend部分

首先要有个向量 z⁰（向量z理解的不是很清楚，视频中讲的是hidden state），然后再用 z⁰与encoder的输出通过match function进行运算，最后得到 z⁰ 和encoder输出的相似度α。其具体的过程如下图所示。

在这里插入图片描述

其中常用的match function有Dot-product Attention、Additive Attention等方法。下图1是Dot-product Attention，图2是Additive Attention。

在这里插入图片描述

在得到各个h对应的相似度α之后，会继续做softmax从到得到处理后的α，之后再用这些得到的α跟之前经过encoder生成的h进行运算，从而得到向量c⁰，c⁰在文献上常常成为Context Vector，其是decoder的输入。得到c⁰之后，就可以进行到LAS的第三个阶段Spell。

在这里插入图片描述

4 Spell部分（decoder）

经过前两部分得到的向量c⁰，就可以进行Spell部分，此部分实现decoder的功能。c⁰当做decoder的输入，经过运算得到Distribution over all tokens，其表现形式为一个向量，向量的维度是V，表示各种期望的概率，再找到最大值作为识别结果。

在这里插入图片描述

此处仅仅只得到了一个结果，再往后进行就需把z¹带入Attention部分进行运算得到c¹，以此类推……在此过程中，前一个hidden state得到的输出结果会作为后一个hidden state的输入。

在这里插入图片描述

在做decoder的时候会做一个Beam Search的操作，这个过程是在树上找到几率最大的路径。下图是一个例子。

在这里插入图片描述

在上图中，红色是贪心算法得到的结果，但其不是最优解，绿色才是最优解。由此可见，在树上做贪心不是一个很好的方法。这里我们可以用BFS算法+优先队列的思想，但考虑到节点过多可能导致爆栈或者计算量过大，这里可以自定义保留每一层最优的B（Beam size）种情况，其余的情况可以剪枝。如下图所示。

在这里插入图片描述

5 Training部分

在完成前面的步骤后，就可以进行Training了。如下图所示。

在这里插入图片描述

在训练过程中，我们给出已知的正确结果，在向量中表示成One-hot vector，接下来再算输出的Distribution与One-hot vector进行比较，我们需要让训练的结果越接近正确结果越好，即此处的*p( c )*越大越好。对于后面的过程以此类推……

在这里插入图片描述

在spell中，前一个产生的输出会对后一个的输出产生影响，但在training中略有不同。如上图所示。与spell不同的是，training的过程中，在产生输出之前会给出正确答案；并且前一个产生的结果不重要，只需要把前一个正确的结果传进去。此过程称为Teacher forcing。用Teacher forcing有个好处，在训练的过程中，假如前一个输出是错的，其作为下一个的输入可能会对下一个输出产生一定的影响，从而浪费很多训练的时间；而每次把正确的结果给下一次的输入，可以减少这种不必要的消耗。