系列文章目录
智能语音处理系列:(一)语音信号基础
智能语音处理系列:(二)神经网络基础
0. 前言
本系列文章针对智能语音处理领域中常见的基本概念和算法做一些基于个人理解的阐述和科普,主要包含语音识别和语音合成两部分,旨在为对智能语音处理感兴趣或者想要入门智能语音处理领域的朋友提供一个参考。
1. 语音信号基本概念
通过语音传递信息是人类最重要、最有效、最常用和最方便的交换信息的形式。本章主要介绍语音相关的一些基础知识。
1.1 语音基本声学特性
音频的基本属性包括音色、音调、音强和音长。这四个属性共同决定了我们如何感知和识别不同的声音。
- 音色(Timbre):指声音的特质或质量,是一种声音区别另一种声音的基本特性;
- 音调(Pitch):指声音的高低,是由声波的频率决定的。频率越高,音调就越高;频率越低,音调就越低;
- 音强(Loudness):指声音的响度,即声音的强弱。音强由声波的振幅(波的高度)决定,振幅越大,声音越响;
- 音长(Duration):指声音持续的时间长短。
1.2 音节(Syllable)
音节是语言中的基本发音单位,通常由一个或多个音素(音的最小单位)组成。一个音节往往由一个元音单独组成,或由一个元音和一个或多个辅音组合而成。
元音构成一个音节的主干,无论从长度还是能量看,元音在音节中都占主要部分,辅音则只出现在音节的前端或后端或前后两端,时长和能量相对都很小。
1.2.1 元音(Vowel)
元音是指发音时气流从声带经过口腔和咽腔几乎不受阻碍的音素。它们是音节的核心,通常决定了音节的长度和质感。元音可以根据口腔的开放度和舌头的位置分为前元音、中元音和后元音。
决定元音音色的主要因素是舌头的形状及其在口腔中的位置和嘴唇的形状等,元音的一个重要特性是共振峰(Formant),声道可以看成是一个根具有非均匀截面的声管,在发音时起共鸣器的作用,当元音激励进入声道时会引起共振特性,产生一组共振频率,称为共振峰频率或共振峰。
1.2.2 辅音(Consonant)
辅音是指发音时气流在声带、口腔或鼻腔受到不同程度阻碍的音素。它们通常出现在音节的开头或结尾位置,围绕元音形成音节。发辅音时由声带是否振动引起浊音和清音的区别,振动的是浊音,不振动的是清音。
辅音没有明确的共振峰结构,分为以下几类:
- 爆破音:如[p]、[t]、[k]、[b]、[d]、[g]。
- 摩擦音:如[f]、[s]、[sh]、[x]、[h]。
- 塞擦音:如[z]、[zh]。
- 鼻音:如[m]、[n]。
- 边音:舌尖形成阻碍不让气流通过,但舌尖两边有