李宏毅DLHLP.02.Speech Recognition.1/7

介绍

本门课程是2020年李宏毅老师新课:Deep Learning for Human Language Processing(深度学习与人类语言处理)
课程网站:http://speech.ee.ntu.edu.tw/~tlkagk/courses_DLHLP20.html
B站视频:https://www.bilibili.com/video/BV1EE411g7Uk?t=222
公式输入请参考:在线Latex公式
在这里插入图片描述

Speech: a sequence of vector (length T, dimension d)
Text: a sequence of token (length N, V different tokens)
Usually T > N
下面看看构成语音的不同要素单位:Token
或者说看一看语音识别的输入是啥东西

Token

Phoneme

a unit of sound
音位,又译音素,是人类语言中能够区别意义的最小声音单位,是音位学分析的基础概念。一个字或词可由一至数个音节组成,一个音节可由一至数个“音段”组成。
在这里插入图片描述
音素词典Lexicon: word to phonemes
在这里插入图片描述
有了词典就可以找出音素与单词的对应关系。
Phoneme和声音对应关系非常明显,在深度学习出现前,Phoneme常常用于语音识别,但是其缺点是需要音素词典才能把Phoneme对应到词,这个词典不好做,要专业语言学家才可以,而且有一些语言的Phoneme还不好找~!

Grapheme

smallest unit of a writing system
字位(字形、字素,英語:grapheme)这个术语,是由语音学里的“音位”(音素)类推到文字学的。
对于英文:26 English alphabet + { _ } (space空格)+ {punctuation marks标点符号}
Chinese does not need “space”
例如:
在这里插入图片描述
比Phoneme难训练

Word

For some languages, V can be too large!例如中文不是用空格来划分词,所以中文分词超级麻烦
在这里插入图片描述
老师来旁征博引给了一个
Agglutinative language:土耳其文
在这里插入图片描述

Morpheme

the smallest meaningful unit
词素是构成词的要素。是语言中最小单位的音义结合体。词素是比词低一级的单位,词是语言中能够独立运用的最小单位,是指词在句法结构中的地位和作用而言的。从语言的词本身来讲,很多词可以进一步分析成若干个最小的音义统一体,即词素。
例如:
unbreakable → “un” “break” “able”
rekillable → “re” “kill” “able”
What are the morphemes in a language? linguistic or statistic

Bytes

The system can be language independent! 用二进制来表示语言
在这里插入图片描述
根据19年的论文统计:Go through more than 100 papers in INTERSPEECH’19, ICASSP’19, ASRU’19
在这里插入图片描述

常见语言识别应用

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
接下来看语音识别的输出部分

Acoustic Feature

我们通常会把声音表示为长度为T,维度为d的特征向量
在这里插入图片描述
下面看这个表示是怎么来的,假设有一段声音信号如下图所示,我们用一个大小为25毫秒的窗口对其进行扫描,得到
一个frame的向量表示,这个计算frame向量的方法有三种:
400 sample points (16KHz)直接做采样,得到400维结果
39-dim MFCC:一种老的算法,得到39维向量
80-dim filter bank output:结果是80维向量
以上后面两种算法自行百度,这里不展开。
在这里插入图片描述
每个窗口之间间隔是10ms,1秒钟就会有100个frame向量
在这里插入图片描述
下面看一下特征的抽取大概步骤:
第一步先经过离散傅里叶变换(Discrete Fourier Transform) 得到时谱图,时谱图在之前的课程有介绍,这个东东和语音识别关系非常强,甚至人经过训练可以直接从时谱图中读出发音;
第二步,时谱图经过filter bank(前辈们已经设计好的)得到一组数据,然后经过log(这个不可省略)然后经过离散余弦变换(discrete cosine transform, DCT)得到MFCC特征表示。
在这里插入图片描述
这里的每个阶段的产物都可以用来做语音辨识。具体应用情况为:
在这里插入图片描述

语音识别的两种模型

Seq-to-seq
在这里插入图片描述
HMM
在这里插入图片描述
HMM是课外学习内容
seq2seq则具体介绍5个模型
• Listen, Attend, and Spell (LAS)
• Connectionist Temporal Classification (CTC)
• RNN Transducer (RNN-T)
• Neural Transducer
• Monotonic Chunkwise Attention (MoChA)
当前趋势:
在这里插入图片描述

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

oldmao_2000

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值