语音识别笔记（二）计算音系学

最新推荐文章于 2022-03-12 08:32:54 发布

Pelhans

最新推荐文章于 2022-03-12 08:32:54 发布

阅读量1.5k

点赞数

分类专栏： ASR 文章标签： ASR

本文链接：https://blog.csdn.net/pelhans/article/details/79614554

版权

ASR 专栏收录该内容

22 篇文章 15 订阅

订阅专栏

欢迎大家关注我的博客 http://pelhans.com/ ，所有文章都会第一时间发布在那里~

研究词是如何通过音子(phone)的单个语言单位发出声音的。

第三讲

基于语音的文字系统表明，口语词是由言语的最小单位组合而成的，这是作为我们所有的现代音系学理论的最基础的原始理论。音系学(phonology)是语言学的一个分支，它要系统地描述音子在不同的环境中的不同实现情况，并且研究语音系统是怎样与语法的其他部分相联系的。

言语语音与语音标音法

语音学是研究用于世界语言中的语音的科学，我们把词的发音模拟为表示音子(phone)和语段(segment)的符号串。在英语研究中，常用的两种不同的字母来描述音子。第一种是国际音标(International Phonetic Alphabet, IPA)。IPA 不仅是一个字母表，它还有一套标音的原则，随着不同标音的需要而不同。另一种语音字母表叫ARPAbet符号(shoup, 1980)。它是为了给美国英语标音而特别设计的。

发音

书中给出了很多关于人体发声结构的介绍，感兴趣的可以去看。。。总结为声带合在一起病发生振动时产生的语音称为浊音(voiced)，当声带不振动时产生的语音称之为清音(unvoiced)。

语音可分为辅音(consonant)和元音(vowel)两大类。这两类语音都是空气通过口腔、咽腔或鼻腔时运动而产生的。辅音产生时要以某种方式限制和阻挡气流的运动，可以是清音或浊音。而元音在产生时受到的阻挡较小，一般是浊音，比较响亮，延续时间较长。

根据阻挡的部位的不同可以吧不同的辅音区别开来。最大阻挡形成的部位称为辅音的发音部位，辅音的发音部位包含唇音、齿音、齿龈音、上颚音、软腭音、喉音等。

![](https://img-blog.csdn.net/20180419104255419?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3BlbGhhbnM=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70) 辅音也可以通过气流的阻挡方式不同来区分，这样的特征称为发音方法。对于辅音来说其发音方法为: 塞音、鼻音、擦音、半元音、颤音。类比于辅音，元音也可以通过发音部位来描述。元音有两个重要的参数：一个参数是发音时设为的高低，它大致相当于舌头最高部位所处的位置，另一个参数是发音时嘴唇的形状(圆唇或不圆唇)，下图给出了不同元音的舌位。

![](https://img-blog.csdn.net/20180419104324539?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3BlbGhhbnM=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70) 除此之外还有不同的元音舌位高度的图示描述，称为元音舌位图

![](https://img-blog.csdn.net/20180419104331779?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3BlbGhhbnM=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)

声音波形

下图给出[iy]的声音波形，横轴表示时间，纵轴表示空气压力程度，大于0的部分表示空气压缩，小于0的部分表示空气的释放。通常来说，讲一个声音转化为数字文件包含两个步骤：取样和量化。

信号点的取样为对信号的振幅为在特定的时间点测量。因此取样率为每秒取样的次数，举例来说对于频率为20,000Hz的波形来说，要想保证波形的不遗失，其对应的最小采样频率应为10,000Hz，称之为Nyquist frequency。常用手机的采样率为8 KHZ，麦克风的采样率为16KHz。存储采用证书存储，如8-bit或16-bit等

![](https://img-blog.csdn.net/20180419104342278?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3BlbGhhbnM=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)

频率、振幅；音高(Pitch)、响度

对于频率、振幅、响度的介绍就不多写了，这里主要介绍音高。音高的定义为感官神经对基音频率的感知。那什么是基音频率呢？其定义为声带的震动频率简记为F0，相应的周期为基音周期。我们可以通过音高追踪来画出F0的图。在下图中处于中间位置的就是F0。

![](https://img-blog.csdn.net/2018041910434990?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3BlbGhhbnM=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70) 另一个比较有用的定义为生意的强度，即dB。它的定义公式为：

![](https://img-blog.csdn.net/20180419104356106?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3BlbGhhbnM=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70) 前面提到音高是根据人的感觉定义的，但研究表明人类对于声音频率的感觉并不是线性的，一般来说当处于100Hz到1000Hz之间时的音高感觉是准确的、线性的。但对于那些在1000Hz以上的部分的准确度就会降低，频率与音高的关系为对数关系。对于此有很多不同的模型来描述这种关系，一种较为常用的是梅尔刻度(Mel Scale)。梅尔频率m与原始声音频率的关系为:

![](https://img-blog.csdn.net/2018041910440256?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3BlbGhhbnM=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70) 有关梅尔刻度的问题在后面的特征提取MFCC那还会继续介绍。

基音周期估计的现有方法

到目前为止，基音检测的方法大致上可以分为三类：

1）时域估计法，直接由语音波形来估计基音周期，常见的有：自相关法、并行处理法、平均幅度差法、数据减少法等；

2）变换法，它是一种将语音信号变换到频域或者时域来估计基音周期的方法，首先利用同态分析方法将声道的影响消除，得到属于激励部分的信息，然后求取基音周期，最常用的就是倒谱法，这种方法的缺点就是算法比较复杂，但是基音估计的效果却很好；

3）混合法，先提取信号声道模型参数，然后利用它对信号进行滤波，得到音源序列，最后再利用自相关法或者平均幅度差法求得基因音周期。

参考资料

[1] J+M 2nd Edition Chapter 7: Phonetics

Pelhans

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
语音识别笔记（二）计算音系学

欢迎大家关注我的博客 http://pelhans.com/ ，所有文章都会第一时间发布在那里~ 研究词是如何通过音子(phone)的单个语言单位发出声音的。第三讲基于语音的文字系统表明，口语词是由言语的最小单位组合而成的，这是作为我们所有的现代音系学理论的最基础的原始理论。音系学(phonology)是语言学的一个分支，它要系统地描述音子在不同的环境中的不同实现情况，并且研...
复制链接

扫一扫