李宏毅笔记---深度学习与人类语言处理
桂花鱼_
https://fly-beep.top/
展开
-
Speech Separation,Deep Clustering,PIT
首先呢,我们来看看什么是Speech Separation问题。人们可以在一个嘈杂的环境中识别出一个特定声音的来源,这个叫做鸡尾酒会效应。这种应用到机器学习领域,我们要做的就是语音增强:语音-非语音分离(降噪)。而Speech Separation就是做不同种类声音的分离的识别工作。那么我们首先规定一下,本文主要讨论两种声音,单一麦克风以及独立的演讲者(即培训和测试演讲者完全不同)的识别工作,在我们收集数据时,我们可以收集两端时间相同的声音讯号,然后就同时播放形成一段新的声音讯号就可以了。首先我们原创 2020-06-20 22:51:53 · 1357 阅读 · 4 评论 -
LM在speech recognition中的应用
今天我们来看看language model(简称LM)在speech recognition中的应用。首先来看上图,LM主要可以预测token sequence 的几率,虽然我们的LAS中其实只需要P(Y|X)的数值即可,但在实际操作中我们还是会加上P(Y)的数值,我们知道P(Y|X)需要的都是成对的数据,但是P(Y)非常容易去收集。我们可以看看,Google的语音训练模型一共使用了12500个小时的声音讯号,而这些基本就有一亿个词汇,相当于100套哈利波特的字数!这也说明数据量会非常的大。而如果知道B原创 2020-06-09 09:28:25 · 310 阅读 · 0 评论 -
一张图总结LAS,CTC,RNA,RNN-T,Neural Transducer, MoCha模型
原创 2020-05-07 17:21:03 · 1471 阅读 · 0 评论 -
Neural Transducer, MoCha模型总结
Neural Transducer, MoCha笔记首先,先来看看什么是Neural Transducer。如上图所示,我们可以发现Neural Transducer其实就是在输出时加了一个attention。我们可以把n个h来作为一个window,然后利用attention来进行输出处理。根据上图也会对实际window的大小选择起到指导作用。接下来,我们来看看什么是MoCha:...原创 2020-05-07 17:19:11 · 1458 阅读 · 0 评论 -
RNA,RNN-T模型总结
RNA与RNN-T笔记首先,先来看什么是RNA呢?其实我们可以发现RNA与CTC其实很相像,但是在输出部分其实进行了一系列优化,我们可以看到,在RNA中的前一个token其实对后一个是有影响的。将相当于RNA中有一种dependency关系。接下来我们看一看RNN-T(对RNA进行一系列优化)我们可以看到最大的不太就是RNN-T的每一个h其实不止可以控制一个token,而且可以控制多个直...原创 2020-05-07 16:57:01 · 4494 阅读 · 0 评论 -
CTC模型总结
CTC总结如上图所示CTC模型就是先将一段声音信号x作为输入输入到encoder中,输出h,再经过一个classifier产生token distribution,最后经过一个softmax输出最后结果。但是如果只是以上这种模型,并不能有很好的结果,因为如果token只是一个大小为V的矩阵的话,不一定每一段x会有输出,于是就会有一个Ø(NULL)便可以有效处理这种情况。如下图所示于是,CTC便...原创 2020-05-07 16:31:43 · 4178 阅读 · 0 评论