声音具有一定的音色、音调、音强和音长。
音色
音色也叫音质,是一种声音区别于另外一种声音的基本特征,比如人的声音和鸟的声音。所以,对于人声识别的研究来说,音色肯定是主要研究对象。
音调
音调是指声音的高低,取决于声波的频率,可以笼统的认为就是基音频率。比如男声和女生,一般男声低沉女声尖锐。
音强
音强表征声音的强弱,由声波的震动幅度决定,在语音信号处理中,可以直观理解为信号幅度(但是音强计算式却不是简单的幅度)。
音长
声音的长短叫音长,取决于发音时间的长短,这个很好理解。对于初学者,这几种声音的特性,基本上可以与语音信号特征对应起来。
声音在语言学上的基本概念
音节
具有响亮的中心,并且能够被明显感觉到的语音片段称为音节。汉语是一种单音节语言,因为汉语一个字就是一个音节,不像英语。一个音节可以由一个音素或者几个音素构成。
音素
音素是发音的最小单位。任何语言都有元音和辅音两种音素。前者说话时,声腔完全开放,气流没有受到任何阻碍。后者或多或少受到阻碍或者声腔某一部分完全关闭。例如图图“tutu”那么可以任务“t”和“u”就是一个音素。
元音辅音,浊音和清音
任何语言都有元音和辅音两种音素。前者说话时,声腔完全开放,气流没有受到任何阻碍。后者或多或少受到阻碍或者声腔某一部分完全关闭。根据发辅音时声带是否震动,区分为浊音和清音。所以清浊音都是针对辅音的。震动的是浊音,不震动的是清音。元音在音节中占主要部分,辅音只出现在音节的前端或后端或前后两端(就是不可能在中间)。
决定元音音色的主要音素是舌头的形状及其在口腔中的位置(即舌位)、唇的形状(即口型)等。说这个是因为这个东西对语音的数学建模可能有用,比如用机器产生(即合成)自然语音。共振峰是元音的另一个重要的声学特性。共振峰参数一般包括共振峰频率和宽度(带宽),是区别不同元音的重要参数。这个对语音识别有帮助。元音的共振峰与发音机制有关,如第一共振峰与舌位高低有关,第二共振峰与舌位前后有关,第一第二共振峰与嘴唇的圆展程度有关,而第三共振峰又受舌尖活动的影响。所以共振峰与发音机制的关系非常复杂,建模时应当考虑到这些。
浊音的声带振动的基本频率称为基音频率。基音频率是随时间变化的,语音是一种典型的非平稳信号。基音频率的变化产生了声调,基音频率的变化轨迹称为声调轨迹。声调反映了语音的韵律。所以与韵律有关的语音信号处理,如情感识别,基音频率是必须研究的。并且在汉语中,声调有辨意作用,这对汉语语音识别和理解是有帮助的。
参考资料:
https://tieba.baidu.com/p/2686249600