语音识别笔记(二)计算音系学

欢迎大家关注我的博客 http://pelhans.com/ ,所有文章都会第一时间发布在那里~

研究词是如何通过音子(phone)的单个语言单位发出声音的。

第三讲

基于语音的文字系统表明,口语词是由言语的最小单位组合而成的,这是作为我们所有的现代音系学理论的最基础的原始理论。音系学(phonology)是语言学的一个分支,它要系统地描述音子在不同的环境中的不同实现情况,并且研究语音系统是怎样与语法的其他部分相联系的。

言语语音与语音标音法

语音学是研究用于世界语言中的语音的科学,我们把词的发音模拟为表示音子(phone)和语段(segment)的符号串。在英语研究中,常用的两种不同的字母来描述音子。第一种是国际音标(International Phonetic Alphabet, IPA)。IPA 不仅是一个字母表,它还有一套标音的原则,随着不同标音的需要而不同。另一种语音字母表叫ARPAbet符号(shoup, 1980)。它是为了给美国英语标音而特别设计的。

发音

书中给出了很多关于人体发声结构的介绍,感兴趣的可以去看。。。总结为声带合在一起病发生振动时产生的语音称为浊音(voiced),当声带不振动时产生的语音称之为清音(unvoiced)。

语音可分为辅音(consonant)和元音(vowel)两大类。这两类语音都是空气通过口腔、咽腔或鼻腔时运动而产生的。辅音产生时要以某种方式限制和阻挡气流的运动,可以是清音或浊音。而元音在产生时受到的阻挡较小,一般是浊音,比较响亮,延续时间较长。

根据阻挡的部位的不同可以吧不同的辅音区别开来。最大阻挡形成的部位称为辅音的发音部位,辅音的发音部位包含唇音、齿音、齿龈音、上颚音、软腭音、喉音等。

![](https://img-blog.csdn.net/20180419104255419?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3BlbGhhbnM=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70) 辅音也可以通过气流的阻挡方式不同来区分,这样的特征称为发音方法。对于辅音来说其发音方法为: 塞音、鼻音、擦音、半元音、颤音。 类比于辅音,元音也可以通过发音部位来描述。元音有两个重要的参数:一个参数是发音时设为的高低,它大致相当于舌头最高部位所处的位置,另一个参数是发音时嘴唇的形状(圆唇或不圆唇),下图给出了不同元音的舌位。
![](https://img-blog.csdn.net/20180419104324539?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3BlbGhhbnM=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70) 除此之外还有不同的元音舌位高度的图示描述,称为元音舌位图
![](https://img-blog.csdn.net/20180419104331779?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3BlbGhhbnM=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)

声音波形

下图给出[iy]的声音波形,横轴表示时间,纵轴表示空气压力程度,大于0的部分表示空气压缩,小于0的部分表示空气的释放。通常来说,讲一个声音转化为数字文件包含两个步骤:取样和量化。

信号点的取样为对信号的振幅为在特定的时间点测量。因此取样率为每秒取样的次数,举例来说对于频率为20,000Hz的波形来说,要想保证波形的不遗失,其对应的最小采样频率应为10,000Hz,称之为Nyquist frequency。常用手机的采样率为8 KHZ,麦克风的采样率为16KHz。存储采用证书存储,如8-bit或16-bit等

![](https://img-blog.csdn.net/20180419104342278?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3BlbGhhbnM=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)

频率、振幅; 音高(Pitch)、响度

对于频率、振幅、响度的介绍就不多写了,这里主要介绍音高。音高的定义为感官神经对基音频率的感知。那什么是基音频率呢?其定义为声带的震动频率简记为F0,相应的周期为基音周期。我们可以通过音高追踪来画出F0的图。在下图中处于中间位置的就是F0。

![](https://img-blog.csdn.net/2018041910434990?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3BlbGhhbnM=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70) 另一个比较有用的定义为生意的强度,即dB。它的定义公式为:
![](https://img-blog.csdn.net/20180419104356106?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3BlbGhhbnM=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70) 前面提到音高是根据人的感觉定义的,但研究表明人类对于声音频率的感觉并不是线性的,一般来说当处于100Hz到1000Hz之间时的音高感觉是准确的、线性的。但对于那些在1000Hz以上的部分的准确度就会降低,频率与音高的关系为对数关系。对于此有很多不同的模型来描述这种关系,一种较为常用的是梅尔刻度(Mel Scale)。梅尔频率m与原始声音频率的关系为:
![](https://img-blog.csdn.net/2018041910440256?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3BlbGhhbnM=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70) 有关梅尔刻度的问题在后面的特征提取MFCC那还会继续介绍。

基音周期估计的现有方法

到目前为止,基音检测的方法大致上可以分为三类:

1)时域估计法,直接由语音波形来估计基音周期,常见的有:自相关法、并行处理法、平均幅度差法、数据减少法等;

2)变换法,它是一种将语音信号变换到频域或者时域来估计基音周期的方法,首先利用同态分析方法将声道的影响消除,得到属于激励部分的信息,然后求取基音周期,最常用的就是倒谱法,这种方法的缺点就是算法比较复杂,但是基音估计的效果却很好;

3)混合法,先提取信号声道模型参数,然后利用它对信号进行滤波,得到音源序列,最后再利用自相关法或者平均幅度差法求得基因音周期。

参考资料

[1] J+M 2nd Edition Chapter 7: Phonetics

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Mind 语音识别模块是一种基于人工智能技术的语音识别系统。它通过将人类语音转换为可理解的文本或命令,实现人机交互。Mind 语音识别模块具有以下特点: 1. 高度准确性:Mind 语音识别模块经过训练和优化,能够准确识别并转换语音信息,提高交互的效率和准确性。 2. 多语言支持:Mind 语音识别模块能够支持多种语言的识别,包括中文、英文、法文等,满足不同用户的需求。 3. 实时处理:Mind 语音识别模块具备快速处理语音信息的能力,能够实时转化语音为文本或命令,提供即时的反馈。 4. 非线性识别:Mind 语音识别模块可以识别语音中的非线性变化,如音调、语速等变化,提高对不同语音特点的适应性。 5. 抗噪能力强:Mind 语音识别模块具备较强的抗噪能力,可以在环境嘈杂或有背景音的情况下,准确地识别用户的语音指令。 6. 灵活性和扩展性:Mind 语音识别模块具备丰富的API接口和功能,可以与其他应用或软件进行集成,实现更广泛的应用场景。 总而言之,Mind 语音识别模块通过将语音转换为文本或命令,实现了语音与机器之间的交互,提供了更自然、便捷的用户体验。它在多语言支持、实时处理、非线性识别、抗噪能力等方面具备优势,具有广泛的应用前景和发展潜力。 ### 回答2: Mind语音识别模块是一种能够将人类语音转化为可识别和处理的信号的技术。这个模块以人的声音作为输入,并将其转化为计算机可以理解的数据。 Mind语音识别模块利用了语音信号处理、机器学习、自然语言处理等多个领域的技术。它的工作原理是通过将语音信号转化为频谱,并利用机器学习算法将该频谱与事先训练好的模型进行匹配,从而得到最接近的结果。 该模块不仅可以识别不同的语言,还可以识别语音中的音调、语速、重音等语音特征。它能够高效地处理实时语音输入并提供准确的识别结果。而且,随着机器学习算法和硬件的不断发展,Mind语音识别模块的准确度和性能也在不断提升。 Mind语音识别模块具有广泛的应用领域。例如,在智能助手中,它可以实现语音控制和语音搜索功能;在智能手机和智能音箱中,它可以实现语音输入和语音命令操作;在自动驾驶领域,它可以用于语音控制车辆等。它的应用范围还包括语音翻译、语音助手、语音识别笔记本等。 总之,Mind语音识别模块是一种先进的技术,它以人的语音为输入,通过机器学习和信号处理算法将其转化为计算机可以理解的数据,并可以用于各种领域的应用。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值