语音识别基础(一):语音是什么


    从最起初的一声巨响,到梵音天籁,到耳旁的窃窃私语,到妈妈喊我回家吃饭,总离不开声音。声音是这个世界存在并运动着的证据。

1.1  大音希声

    假设我们已经知道了声音是什么。

    我们可以找到很多描述声音的词语,如“抑扬顿挫”、“余音绕梁”。当我们在脑海中搜刮这类词语时,描述对象总绕不过这两个:人的声音和物的声音。人的声音,就是语音;物的声音,多数想到的是音乐。这样的选择源于人的先验预期:语音和音乐才最可能有意义,有意义的才去关注。估计不会有人乐于用丰富的辞藻来描述毫无意义的声音。所以,语音研究的意义在于语音本身所传递的意义是什么,以及语音为什么能够传递意义。

    声音有很多,每时每刻每次振动都能产生声音,可是有意义的声音实在不多。我们可以使用机器随机生成一段声音,心想着也许这段声音可以产生一些文字内涵。这个想法与很多年前就开始忙不迭地敲打莎士比亚巨著的大猩猩没有差别。不管重复多少次,这些随机的声音听起来都是杂音,没意思。很显然,在这样一个庞大的声音空间中,有意义的语音和音乐只是其中极微小的一点,这也是“大音希声”的一种解释吧。偏偏人类就能毫不费力找到那个点,并且能说会道,这种搜索能力也是千百年来才积攒下来的。不过就算是这么一个小点,古往今来的文学和音乐经典也并未占据多少地盘,这也使得语音语言的研究、文学音乐的创作有着广阔的发挥空间。

    从大音希声中,我们可以得到以下一些启示:语言是高度概括和规范化的产物,它的熵值(简单理解为系统的混乱程度)极低,所以语言本身反映了一种思维方式,比如不同语言对“过去时”、“现在时”、“将来时”的处理方式体现了对时间的不同感受,不同语言对主谓宾的排序体现了对空间层次的不同感知;还有,语音在声音空间中是高度集中的,这使得我们在解析一段语音时不用搜索整个声音空间,少了一些盲目性(不过语言本身的博大精深已让人叹为观止了)。

    声音以波的形式传播,即声波(Sound Wave)。当我们以波的视角来理解声音时,却又大繁若简起来:仅凭频率(Frequency)、幅度(Magnitude)、相位(Phase)便构成了波及其叠加的所有,声音的不同音高(Pitch)、音量(Loudness)、音色(Timbre)也由这些基本“粒子”组合而来。图1.1展示了几种简单的波形,世上形形色色的声波都可以“降解”到基本波身上,这也是傅里叶变换(Fourier Transform)的基本思想。不同的声波有不同的频率和幅度(决定音量),人耳也有自己的接受范围。人耳对频率的接受范围大致为 20 Hz至20 kHz,于是以人为本地将更高频率的声波定义为超声波(Ultrasound Wave)、更低频率的声波定义为次声波(Infrasound Wave),虽然其他动物可以听到不同范围的声音;人耳对音量的接受范围已经进化得适应了地球上的常规声音,小到呼吸声、飞虫声, 大到飞机起飞、火箭发射的声音(已经不是地球默认配置),再往上,人的身心就越来越承受不住了,为了衡量音量的大小,再一次以人为本地将人耳所能听到的1kHz纯音的音量下限定义为0dB。

1.2  产生语音

    语言是人类的标志性能力,是一项发明,只不过这个发明是人类群体在长远的历史当中不断打磨而成,趋近于稳定而不得稳定,因为新的人和新的思想总是不断涌现,语言随之而进化,根据社会的需要不断做出改变,比如小到每年产生的新词(对于汉语来说,常用的字基本已经固定不变,是所有词句的基本单元,新加的词也不过是对已有单字进行组合,再赋予新的意义,这与利用字母组装成新词有所区别),大到一种语言的消亡和另一种语言的诞生(计算机语言也是一种情形)。当语言通过声音的形式表达出来,即为“语音”,是指由人类发出的、承载特定语义的声音,其中语义不仅可以借助文字本身来传递,也可以借助声音的音高、音强、音长、音色及其组合来表示不同的情感、态度等信息。

    图1.2展示了人体的发音器官及其对声音的影响区域。简而言之,肺部产生气流动力,经过气管引起声带振动形成声源(通常称为激励,图中激励区也叫声源区),最后经过声道(咽腔、口腔、鼻腔等区域)调制后由口唇辐射出来,产生了我们所听到的语音。当我们说话、唱歌时,基本上所有的发声器官都被调用了;当我们哼着小曲时,口腔可以不动,而只通过调动鼻腔来调节音调;当我们捂着口鼻时,气流停止,没了动力,渐渐就发不出声音了。

    已知了人体发音器官的结构图,便可以仿生复制出语音发生器,然而仅仅只是功能上复制出这些发音器官以及将它们联系在一起的神经系统已是很难,而模拟产生让各个器官能够联动协作的神经信号就更难了。


1.3   看见语音

    语音是用来听的,看不见,摸不着,但是我们可以看看语音的保存形式。自然存在的语音是连续的波动,具有波的所有属性。声波可以保存成离散的数字,即模数转换(Analog to Digital Conversion,ADC),所以,我们之后所研究的语音并不是声音的最原始形态,甚至都不叫声音,一串数字而已,但这些数字却达到了它的目的:再现声音,且原始声音所要传递的信息不丢失。音乐可以做得更彻底,直接将声音记录在一纸没有动静的乐谱上。除了声音,光线也是自然存在的现象,同样地,我们也可以将它数字化,保存成图片或视频。机器学习中注重表征学习(Representation Learning),不管是声音还是光影,它们的数字化保存形式已经是一种表征方法了。对文本的处理显得直来直去一些,因为文字是人类发明出来的,发明文字的目的就是为了保存和传承,如音符一样,它也是一种离散的可记录、传播的符号,它的形态就是它的保存形式,所以文字本身就是文本处理的原始表征方法。

    语音的基本保存形式可用波形图(Waveform)展现出来,如图1.3所示,可以简单地看作是一串上下摆动的数字序列,比如,每1秒的音频可以用16000个电压数值表示,即采样率为16kHz。进一步聚焦放大波形图,可以清晰地看到每个采样点,如图1.4所示。真正的语音不需要额外的注解,但对于数字化的语音来说,还需要额外的信息对文件格式进行说明,如信道、采样率、精度、时长等,并有文件大小=格式信息+信道数*采样率*精度*时长。可以用soxi查看文件信息,如图1.5所示。

    语音,是包含时序信息的序列,是时域上的一维信号。离散傅里叶变换(Discrete Fourier Transform,DFT)使得语音的频域分析成为可能,图 1.3的语音可以变成图1.6的频谱图(Spectrogram)模样,图中可以清楚地看到“层峦叠嶂”,原始音频里的信息又以另一种表征方法释放出来了,颜色明暗表示频带能量大小,较亮的条纹即是共振峰(Formant)。整个过程就好比一双好耳朵听到了一首随时间流动的曲子,随即写出了它的谱子,看着谱,曲子又随即可以复现出来。傅里叶变换适宜具有平稳性(Stationarity)的波,而表意丰富的语音显然不具有长时平稳性,为了适用傅里叶变换,则需要假设语音的短时平稳性,所以语音的傅里叶变换是一小段一小段(一帧)进行的,而“短时”有多短也有不同影响,较短的窗口有较高的时域分辨率、较低的频域分辨率,较长的窗口有较高的频域分辨率、较低的时域分辨率,语音识别中常取25毫秒。时域与频域之间是一一对应的,可以代表彼此。从一种表征到另一种表征,包含的意义都在,只是有些藏得深,挖掘不到,有些露得浅,一目了然,后者才更利于机器学习,所以机器学习领域常常撇不开表征学习,而深度学习的优势就在于表征学习。

1.4  小结

    研究一个事物之前,先去观察它、了解它,看它的来历,看它的形态、结构。语音识别的研究对象就是“语音”,本章简介了语音的物理产生原理及其大繁若简的呈现形式。


References

[1]     王东, 利节, and许莎. 人工智能. 清华大学出版社, 2019.


文章转载于微信公众号: 清语赋
作者: 汤志远

  • 2
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
实用语音识别基础--21世纪高等院校技术优秀教材 ISBN:711803746 作者:王炳锡 屈丹 彭煊 出版社:国防工业出版社 本书从语音识别的基本理论出发,以“从理论到实用”为主线,讲解了国际上最新、最前沿的语音识别领域的关键技术,从语料库建立、语音信号预处理、特征提取、特征变换、模型建立等方面详细介绍了语音识别系统建立的过程,并针对语音识别系统实用化的问题,给出了一些改善语音识别系统性能的关键技术,力求语音识别能走出实验室,向实用发展。   全书共分四个部分(17章),第一部分介绍语音识别的基本理论;第二部分介绍实用语音识别系统建立的过程;第三部分列举了语音识别系统工程化所需的关键技术;第四部分对语音识别的4个主要应用领域进行了详尽的、深入浅出的讲解,并根据最新的研究与实验结果提供了大量的实际参数、图表,与实际工作联系紧密,具有很强的可操作性与实用性。章节之间紧密配合、前后呼应,具有很强酶系统性。同时,通过书中的研究过程和研究方法,读者能够在以后的研究工作中得到很大的启发。   本书可作为高等院校理工科通信和信息处理及相关专业的高年级本科生和(硕士、博士)研究生的教材或参考书,也可供从事信息处理、通信工程等专业的研究人员参考。   目录:   第1章 绪论   1. 1 概述   1. 2 语音识别综述   1. 3 国内外语音识别的研究现状和发展趋势   参考文献   第一部分 基本理论   第2章 听觉机理和汉语语音基础   2. 1 概述   2. 2 听觉机理和心理   2. 2. 1 语音听觉器官的生理结构   2. 2. 2 语音听觉的心理   2. 3 发音的生理机构与过程   2. 4 汉语语音基本特性   2. 4. 1 元音和辅音   2. 4. 2 声母和韵母   2. 4. 3 音调 字调   2. 4. 4 音节 字 构成   2. 4. 5 汉语的波形特征   2. 4. 6 音的频谱特性   2. 4. 7 辅音的频谱特性   2. 4. 8 汉语语音的韵律特征   2. 5 小结   参考文献   第3章 语音信号处理方法--时域处理   3. 1 概述   3. 2 语音信号的数字化和预处理   3. 2. 1 语音信号的数字化   3. 2. 2 语音信号的预处理   3. 3 短时平均能量和短时平均幅度   3. 3. 1 短时平均能量   3. 3. 2 短时平均幅度   3. 4 短时过零分析   3. 4. 1 短时平均过零率   3. 4. 2 短时上升过零间隔   3. 5 短时自相关函数和平均幅度差函数   3. 5. 1 短时自相关函数   3. 5. 2 短时平均幅度差函数   3. 6 高阶统计量   3. 6. 1 单个随机变量情况   3. 6. 2 多个随机变量及随机过程情况   3. 6. 3 高斯过程的高阶累积量   3. 7 小结   参考文献   第4章 语音信号处理方法--时频处理   4. 1 概述   4. 2 短时傅里叶变换   4. 2. 1 短时傅里叶变换的定义和物理意义   4. 2. 2 基于短时傅里叶变换的语谱图及其时频分辨率   4. 2. 3 短时傅里叶谱的采样   4. 3 小波变换   4. 3. 1 连续小波变换   4. 3. 2 二进小波变换   4. 3. 3 离散小波变换   4. 3. 4 多分辨分析   4. 3. 5 正交小波包   4. 4 Wigner分布   4. 4. 1 Wigner分布的定义   4. 4. 2 Wigner分布的一般性质   4. 4. 3 两个信号和妁Wigner分布   4. 4. 4 Wigner分布的重建   4. 4. 5 Wigner分布的实现   4. 5 小结   参考文献   第5章 语音信号处理方法--倒谱同态处理   5. 1 概述   5. 2 复倒谱和倒谱   5. 2. 1 定义   5. 2. 2 复倒谱的性质   5. 3 语音信号的倒谱分析与同态解卷积   5. 3. 1 叠加原理和广义叠加原理   5. 3. 2 同态解卷特征系统和同态解卷反特征系统   5. 3. 3 同态解卷系统   5. 3. 4 语音的复倒谱及同态解卷   5. 4 避免相位卷绕的算法   5. 4. 1 最小相位信号法   5. 4. 2 递归法   5. 5 小结   参考文献   第二部分 语音识别系统   第6章 语料库   6. 1 概述   6. 2 语料库的基本特征   6. 3 语料库的类型   6. 4 语音语料库   6. 4. 1 语音语料库建立. 收集和标注的意义   6. 4. 2 语音语料库的建立和收集要点   6. 4. 3 标准语音语音特性描述   6. 5 语料库的设计举例--863汉语普通话语音合成语料库的设计   6. 5. 1 语料库设计原则   6. 5. 2 语音库的标注   6. 5. 3 与语音语料库相关的文字语料库标注   6. 6 小结   参考文献   第7章 语音识别的预处理   7. 1 概述   7. 2 语音识别单元的选取   7. 2. 1 汉语音节   7. 2. 2 汉语的基本音素   7. 2. 3 汉语半音节   7. 3 自动分段--端点检测技术   7. 3. 1 基于能量的端点检测   7. 3. 2 基于LPC-10声码器的端点检测   7. 3. 3 基于信息熵的语音端点检测   7. 3. 4 基于频带方差的端点检测   7. 3. 5 基于倒谱特征的带噪语音信号端点检测   7. 3. 6 基于HMM的端点检测方法   7. 3. 7 基于分形技术的端点检测   7, 3. 8 基于自相关相似距离的端点检测   7. 3. 9 基于迟滞编码的端点检测   7. 3. 10 实时端点检测算法   7. 4 小结   参考文献   第8章 语音信号特征参数   8. 1 概述   8. 2 基音周期   8. 2. 1 自相关法及其改进   8. 2. 2 并行处理法   8. 2. 3 倒谱法   8. 2. 4 简化逆滤波法   8. 3 线性预测参数   8. 3. 1 线性预测信号模型   8. 3. 2 线性预测误差滤波   8. 3. 3 语音信号的线性预测分析   8. 3. 4 线性预测分析的解法   8. 3. 5 斜格法及其改进   8. 4 线谱对 LSP 参数   8. 4. 1 线谱对分析原理   8. 4. 2 线谱对分析的求解   8. 5 LPCC参数   8. 6 mfcc参数   8. 7 ASCC参数   8. 8 感觉加权的线性预测 PLP 特征   8. 8. 1 PLP参数   8. 8. 2 RASTA-PLP参数   8. 9 动态差分参数   8. 10 高阶信号谱类特征   8. 10. 1 WV谱的定义及其主要性质   8. 10. 2 WV谱计算式的一些变形   8. 11 小结   参考文献   第9章 特征变换   9. 1 概述   9. 2 线性判别分析 LDA   9. 2. 1 线性判别分析的概念   9. 2. 2 广义线性判别函数   9. 2. 3 Fisher线性判别   9. 2. 4 多类问题   9. 3 主分量分析 PCA   9. 3. 1 基于K-L变换的主分量分析   9. 3. 2 随机向量的K-L展开   9. 3. 3 基于K-L变换的降维   9. 4 独立分量分析 ICA   9. 4. 1 引言   9. 4. 2 线性独立分量分析   9. 4. 3 线性独立分量分析算法   9. 4. 4 独立分量分析的预处理   9. 4. 5 非线性独立分量分析   9. 5 小结   参考文献   第10章 语音识别的模型   10. 1 概述   10. 2 动态时间规整 DTW   10. 2. 1 动态规划技术 DP   10. 2. 2 DTW算法的改进   10. 3 隐马尔可夫模型 HMM   10. 3. 1 隐马尔可夫模型的定义   10. 3. 2 HMM中的3个基本问题及其解决方案   10. 3. 3 隐马尔可夫模型的类型   10. 3. 4 HMM算法实现的问题   10. 4 分类模型 SVM   10. 4. 1 引言   10. 4. 2 学习问题   10. 4. 3 学习过程一致性的条件   10. 4. 4 学习过程收敛速度的界   10. 4. 5 结构风险最小归纳原理   10. 4. 6 支持向量机   10. 5 人工神经网络   10. 5. 1 引言   10. 5. 2 神经元的基本模型   10. 5. 3 前向网络   10. 5. 4 反馈网络   10. 6 高斯混合模型 GMM   10. 6. 1 高斯混合模型的定义   10. 6. 2 参数调整算法--em算法   10. 7 小结   参考文献   第三部分 语音识别中关键处理技术   第11章 说话人自适应和说话人归一化技术   11. 1 概述   11. 2 自适应方式的分类   11. 3 MLLR算法介绍   11. 3. 1 语音特征空间的划分   11. 3. 2 参数的估计   11. 3. 3 对均值矢量的变换   11. 4 MAP算法介绍   11. 4. 1 MAP算法准则   11. 4. 2 MAP算法公式推导   11. 4. 3 MAP算法讨论   11. 5 说话人归一化技术   11. 5. 1 说话人归一化技术原理   11. 5. 2 声道长度归一化 VTLN   11. 6 小结   参考文献   第12章 噪声抑制   12. 1 概述   12. 2 基于小波变换的噪声抑制   12. 2. 1 利用小波变换去除周期性噪声   12. 2. 2 利用小波变换去除冲激噪声   12. 2. 3 利用小波变换去除宽带噪声   12. 2. 4 小波去噪方法的分析   12. 3 基于EVRC编码的噪声抑制   12. 4 基于HMM模型的噪声补偿   12. 5 小结   参考文献   第13章 信道补偿   13. 1 概述   13. 2 稳健语音识别技术   13. 2. 1 稳健语音识别的提出   13. 2. 2 稳健语音识别的研究现状   13. 3 信道补偿技术的主要方法   13. 3. 1 经验补偿技术   13. 3. 2 盲补偿   13. 3. 3 基于特征及模型的补偿   13. 4 信道补偿技术在语音识别中的应用   13. 4. 1 信道补偿技术在汽车内语音识别中的应用   13. 4. 2 基于信道补偿的电话语音识别   13. 5 小结   参考文献   第四部分语音识别应用   第14章 说话人识别   14. 1 概述   14. 2 说话人识别的基本原理   14. 2. 1 说话人识别系统的典型结构   14. 2. 2 技术原理   14. 3 说话人识别的特征选择   14. 3. 1 说话人识别系统中常用的特征   14. 3. 2 特征参数的统计评价   14. 4 说话人识别的主要方法   14. 4. 1 模板匹配法   14. 4. 2 概率统计方法   14. 4. 3 辨别分类器方法   14. 4. 4. 混合方法   14. 5 判决规则与性能评价标准   14. 5. 1 说话人辨认   14. 5. 2 说话人确认 检测   14. 6 说话人识别中的稳健技术   14. 7 系统举例   14. 7. 1 GMM说话人辨认算法   14. 7. 2 SVM-GMM混合模型   14. 7. 3 CMM-UBM说话人确认   14. 8 小结   参考文献   第15章 关键词识别   15. 1 概述   15. 2 关键词识别及其与连续语音识别的关系   15. 3 关键词识别原理   15. 3. 1 关键词识别系统组成   15. 3. 2 关键词识别的基本问题   15. 3. 3 关键词识别系统的主要技术难点   15. 4 搜索策略   15. 4. 1 语音起始和结束点的粗判   15. 4. 2 帧同步的Viterbi解码算法   15. 4. 3 加入驻留惩罚的改进Viterbi解码算法   15. 4. 4 语法节点处的路径合并   15. 4. 5 回溯   15. 5 识别结果的确认   15. 5. 1 置信度的原理   15. 5. 2 利用反词模型的拒识方法   15. 5. 3 利用识别结果本身信息的拒识方法   15. 6 系统实现   15. 6. 1 训练和识别系统框图   15. 6. 2 训练系统的具体实现   15. 6. 3 识别系统的具体实现   15. 7 小结   参考文献   第16章 语言辨识   16. 1 概述   16. 1. 1 语言辨识的原理   16. 1. 2 语言辨识技术研究发展的历史   16. 2 语言辨识所需要的有用信息   16. 3 针对自动语言辨识的知觉研究   16. 4 语言辨识的主要方法   16. 4. 1 频谱相似性方法   16. 4. 2 基于韵律信息的方法   16. 4. 3 基于音素识别的方法   16. 4. 4 基于多语言语音单元的方法   16. 4. 5 单词层次方法   16. 4. 6 基于连续语音识别的方法   16. 4. 7 元音系统模型   16. 5 语言辨识系统举例   16. 5. 1 基于GMM-UBM模型的语言辨识系统   16. 5. 2 基于最小分类误差准则的语言辨识系统   16. 5. 3 基于说话人聚类和高斯混合模型的语言辨识系统   16. 5. 4 基于时频主分量分析和高斯混合模型的语言辨识系统   16. 5. 5 基于高斯混合二元模型的语言辨识系统   16. 6 语言辨识系统评估   16. 7 小结   参考文献   第17章 连续语音识别   17. 1 概述   17. 2 连续语音识别整体模型   17. 3 声学模型   17. 3. 1 语音识别单元的选取   17. 3. 2 基于予词单元HMM的训练   17. 4 连续语音识别中的搜索策略   17. 4. 1 传统的帧同步算法   17. 4. 2 基于统计知识的帧同步搜索算法原理   17. 4. 3 受词法约束的词搜索树   17. 4. 4 连续语音识别中的双层搜索网络   17. 5 语言模型   17. 5. 1 基于规则的方法   17. 5. 2 基于统计的方法   17. 5. 3 N-gram模型的平滑   17. 5. 4 基于文法规则的方法和基于统计的方法相结合   17. 6 小结   参考文献   附录 英汉名词对照

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值