【李宏毅2020语音识别课程】01 Introduction

李宏毅DLHLP2020课程资料首页

01 Introduction for Speech Recognition

语音识别系统的输入和输出分别是语音和文字

截屏2023-09-11 13.51.02

Token

对于Token的选择我们可以有以下几类:

  • phoeme:a unit of sound

可以将其理解为音标,是发音的基本单位。但是机器看不懂,这个时候我们就需要词表lexicon

截屏2023-09-11 14.11.53

在深度学习之前,我们需要人工构造数据的预处理所以phoneme是非常常见的选择,但是特征构造的过程极其复杂,lexicon的构建需要语言学的知识。


  • Grapheme:smallest unit of a writing system(最小的语法单位、书写的最小单位)

如果是英文单词,那么我们就需要再次回之前加上空白(空格)

26 English alphabet + {__}(space) + {punctuation marks}

如果是中文单词我们就不需要空格。

截屏2023-09-11 14.14.08

这样我们就完全不需要Lexicon了,但是把“字”作为基本单位的话,语音中发音相似的字到底是什么那就需要很长的上下文才能确定


  • word:如果把“词”作为语音辨识的基本单位

问题就在于很多语言的词汇表太多了,这是一件麻烦事。比如土耳其文,他的词可以无限创造


  • Morpheme:the smallest meaningful unit(<word,>grapheme)这个语言里面可以传达意思的最小单位

​ unbreakable–>“un"break”“able”

​ refillable---->“re”“kill”"able‘’

那么如何获得语言的Morpheme呢:一般是用语言学的知识或者基于统计的方法


  • Bytes(!):The system can be language independent!

比如我们用UTF-8,我们可以表示全世界几乎所有的词

截屏2023-09-11 14.23.29

V is always 256


在语音学顶会INTERSPEECH19,ICASSP19,ASRU19,各个token的使用占比:

截屏2023-09-11 14.24.53

phoneme使用的人较多是因为这类数据和语音数据的联系比较直接简单。

声学特征的提取

截屏2023-09-11 14.32.13

时间 ( s ) = 1 / 频率 ( H Z ) 时间(s) = 1 / 频率(HZ) 时间(s)=1/频率(HZ)

16000 X 0.025 = 400

MFCC现在已经不常用了,一般使用filter bank output。将其400个采样点转换成80维的向量

截屏2023-09-11 14.39.05

如果把1s切割为10ms,那么1s的声音讯号就会产生100个frames,可以理解为句子的sequence。


完整过程

截屏2023-09-11 14.42.56

在语音学顶会INTERSPEECH19,ICASSP19,ASRU19,各个Acoustic Feature方法的使用占比。

截屏2023-09-11 14.43.48

Data sets

English corpora:我们到底需要多少声音信号的语料库呢?

截屏2023-09-11 14.50.34

Librispeech是比较合理的基础数据集。

MNIST:28X28X1X60000=47,040,000.这是一个有六万张图片的手写字体识别的数据集,相当于有这么多的数字

CIFAR-10:32X32X3X50000=153,600,000=2h40min

如果把它换成语音信号,以16kHZ来进行采样的话,大概只有49分钟的数据

Two Points of Views for Speech Recognization

Seq-to-Seq and HMM

截屏2023-09-11 14.51.20

Models to be introduced

  • Listen, Attend, and Spell(LAS)
  • Connectionist Temporal Classification
  • RNN Transducer(RNN-T)
  • Neural Transducer
  • Monotonic Chunkwise Attention

在语音学顶会INTERSPEECH19,ICASSP19,ASRU19,各个Models的使用占比:

截屏2023-09-11 14.52.16
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值