0_Speech Recognition Technology
本文是参考B站课程所做的笔记,仅供自己学习用
part 1: How do machines understand us
按照上图进行的步骤为:speech signal --> feature extraction --> decoding --> recognition result
其中decoding一步的步骤为:acoustic model --> dictionary --> language model
Part 2: An end-to-end ASR
由于传统的语音识别步骤比较繁琐,所以希望能够省去其中的步骤,直接由语音信号得出语音识别的结果,端到端技术的发展使得这一设想成为可能。
2006年,几位大神提出了CTC的概念:
在CTC出现以前,我们的输入需要依靠人为的分段,之后才能识别;
在CTC中,引入空字符、空格等特殊字符加上英文的26个字母,直接学习字母级别的映射关系,相同映射的部分用同一个字符来表示,最后进行合并。
CTC简单来说是一个损失函数,通过训练使损失达到最小。
但CTC的成立建立在序列字母间是相互独立的条件下,但文字的上下文间显然是有关联的。
2015年,注意力机制首次被提出应用(Attention based encoder-decoder)
注意力机制是一个双向网络,在预测字符的同时也兼顾了上下文间的信息,但由于它是双向网络,所以它无法预知未来出现的元序列,因此便出现了端到端。
端到端(streaming end-to-end),以online RNN-T模型为例,将当前的输出作为下一时刻的输入,便解决了注意力机制的缺陷。
Part 3: Useful dataset
当拿到一个语音数据集时要重点关注以下部分:
几个常见的数据集:
- 2000 HUB5 English: 从40个电话对话抽取的英语口语数据
- LibriSpeech: Audiobooks的数据集,包含了500个小时不同读者读的audiobooks录音,根据audiobooks的章节进行组织的。
- TED-LIUM: 1495个TED的演讲录音
- Free Spoken Digit Dataset: 1500个英语读数字的录音
- TIMIT: 630个美国英语发音的朗读者的数据集。
一些相关信息:
部分下载路径:
-
LibriSpeech http://www.openslr.org/12/
-
THCHS-30 http://www.openslr.org/18/
-
Aishell http://www.openslr.org/33/