论文笔记:语音情感识别(一)语音知识概览

语音信号(声音是什么)

声音是由物体振动产生的声波,是通过介质(空气或固体、液体)传播并能被人或动物听觉器官所感知的波动现象,最初发出振动的物体叫声源。声音(语音消息)的基本模拟形式是一种称为语音信号的声学波。语音信号可以通过麦克风转化成电信号,转换成语音波形图,如下图为消息"should we chase"的波形图。横坐标表示时间,纵坐标表示振幅。文本"should we chase"按照发音可以表示成音素的形式[SH UH D - W IY - CH EY S],声波图中的每一段表示一个音素,在ARBAbet音素集中包含近64 = 2^6个符号。

1160281-20181106165618457-1510261000.png

声音作为波的一种,频率(声源在一秒内振动的次数)和振幅是描述波的重要属性,频率的大小与我们通常所说的音高对应,而振幅影响声音的大小。声音可以被分解为不同频率不同强度正弦波的叠加,正弦波是频率成分最为单一的一种信号,任何复杂信号都可以看成由许许多多频率不同、大小不等的正弦波复合而成。这种变换(或分解)的过程,称为傅立叶变换,通过这种分解我们可以把时域图转为频域图。

正弦信号表达式为\(y = A \sin(\omega x + \varphi)\)。其中A表示振幅。
\(\omega/2\pi\)表示频率。

对于(空气中的)声振动而言,振幅是声压与静止压强之差的最大值。其中声压是声波在空气中传播时形成压缩和稀疏交替变化的压力增值。麦克风录制声音的原理就是将空气中的压力变动波转化成电信号的变动。

而我们平常说的声音强度(响亮程度)就是由振幅决定的,声音强度的单位是分贝(dB),计算公式如下,用实测声压和参考声压之比的常用对数(常用对数lg以10为底,自然对数ln以e为底)的20倍来表示。下式中分母是参考值的声压,通常为20微帕,人类能听到的最小声压。
\[20*lg_(\frac{p}{p0})\]

分贝表示功率量之比时,等于功率强度之比的常用对数的10倍。
分贝表示场量之比时,等于场强幅值之比的常用对数的20倍。


语音链(声音是怎么发出的)

从语音信号的产生到感知的过程称为语音链,如下图所示。
下面是语音信号产生的四个步骤。

1. 文本:消息以某种形式出现在说话者的大脑中,消息携带的信息可认为有着不同的表示形式,例如最初可能以英语文本的形式表示。假设书面语有32个符号,也就是2^5,用5个bit表示一个符号。正常的平均说话速率为15个符号每秒。上图例子中有15个字母“should we chase”,持续了0.6秒,信息流的速率为15x5/0.6 = 125 bps。

2. 音素:为了"说出"这条消息,说话者隐式地将文本转换成对应口语形式的声音序列的符号表示,即文本符号转成音素符号,音素符号用来描述口语形式消息的基本声音及声音发生的方式(即语速和语调)。ARBAbet音素集中包含近64 = 2^6个符号,用6个bit表示一个音素,上图例子中有8个音素,持续了0.6秒,信息流的速率为8x6/0.6 = 80 bps,考虑描述信号韵律特征的额外信息(比如段长,音高,响度),文本信息编码成语音信号后,总信息速率需要再加上100bps。

3. 发音:神经肌肉系统以一种与产生口语形式消息及其语调相一致的方式,移动舌头,唇,牙齿,颌,软腭,使这些声道发声器官按规定的方式移动,进而发出期望的声音。

4. 刺激共振:声道系统产生物理生源和恰当的时变声道形状,产生上图所示的声学波形。

前两个阶段的信息表示是离散的,用一些简单假设就可以估计信息流的速率。
但是后两个阶段信息是连续的,以关节运动的形式发出,想要度量这些连续信息,需要进行恰当的采样和量化获得等效的数字信号,才能估计出数据的速率。事实上,因为连续的模拟信号容易

  • 3
    点赞
  • 38
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值