《语音信号处理》整理

jack_201316888

于 2020-08-18 15:56:37 发布

阅读量1.5k

点赞数

分类专栏： NLP

原文链接：https://www.jianshu.com/p/2b83e68a055b

版权

NLP 专栏收录该内容

42 篇文章 3 订阅

订阅专栏

reference

《spoken language processing》

1 语音基础

名词解释

pitch 音调以HZ为单位
基频又称音高
能量又称音强

说话的声音（声带震动）和其他声音相比，有独特的时域和频域模式。声带的震动产生基频(fundamental frequency)，口腔共振(the pharyngeal and oral resonance cavities)等产生高频谐波

基频

就是声带的闭-开频率

声道模型

语谱图、共振峰

语图纵坐标是Frequency (Hz) ，横坐标是Time (s) 。语图上还有第三个维度，颜色的深浅，就是表示振幅的大小，即音强（sound intensity）。每隔5ms进行一次傅里叶变换。

语图某段频率相对于周围较黑，就是说这里振幅较大，音强较大。我们把这一段称为「共振峰」。相对周围较黑的有几处，就有几个共振峰。一般以一段较黑的条纹的中间位置作为共振峰的频率值，是一个声音区别于其他声音的主要特征，观察共振峰和它们的转变可以更好的识别声音。也就是说，共振峰是声音的主要特征。人耳就像一个滤波器组一样，它只关注某些特定的频率分量，所以人的听觉系统是一个特殊的非线性系统，它响应不同频率信号的灵敏度是不同的。
form https://www.zhihu.com/question/24190826/answer/32315664

辅音和元音的区别

• 1、辅音发音时，气流在通过咽头、口腔的过程中，要受到某部位的阻碍；元音发音时，气流在咽头、口腔不受阻碍。这是元音和辅音最主要的区别。
• 2、辅音发音时，发音器官成阻的部位特别紧张；元音发音时发音器官各部位保持均衡的紧张状态。
• 3、辅音发音时，气流较强；元音发音时，气流较弱。
• 4、辅音发音时，声带不一定振动，声音一般不响亮；元音发音时，声带振动，声音比辅音响亮。

一般只有元音（一些介于元音辅音中间分类不明的音暂不讨论）才会有共振峰，而元音的音质由声道的形状决定，而声道的形状又通过发音的动作来塑造（articulatory+movements）。

语谱图上频率能量峰值按照时间延伸形成带状

from 安时

清音和浊音
- 清音：声带不振动
- 浊音：声带振动而发音
- 元音都是浊音、辅音有清音也有浊音。

Discrete-time model for speech production.

4 语音编码 Speech Coding

语音编码技术的目的：为了减少传输码率或存储量，以提高传输或存储的效率。经过这样的编码之后，同样的信道容量能传输更多路的信号，如用于存储则只需要较小容量的存储器。因而这类编码又称为压缩编码。需要在保持可懂度与音质、降低数码率和降低编码过程的计算代价三方面折衷。

波形编码：波形编码器没有使用模型，而是试图使重构的语音和原始语音之间的误差最小化。波形编码的方法简单，数码率较高，在64kbit/s至32kbit/s之间音质优良，当数码率低于 32kbit/s的时候音质明显降低，16 kbit/s时音质非常差。
参数编码：基于参数或模型的编码器提供了一种可用来模拟语音产生的模型，并从原始语音中提取可用来描述此模型的参数，然后随着语音信号特征的改变来周期地更新模型参数。声码器编码后的码率可以做得很低，如1.2kbit/s、2.4kbit/s，但是也有其缺点。首先是合成语音质量较差，往往清晰度可以而自然度没有，难于辨认说话人是谁，其次是复杂度比较高
混合编码：混合编码是将波形编码和声码器的原理结合起来，数码率约在4kbit/s—16kbit/s之间，音质比较好，最近有个别算法所取得的音质可与波形编码相当，复杂程度介乎与波形编码器和声码器之间

电话的语音采样频率为8khz. 评价分辨率好坏的标准：the Mean Opinion Score (MOS)
解码延迟： Coder delay is the sum of different types of delay. The first is the algorithmic delay arising because speech coders usually operate on a block of samples, called a frame, which needs to be accumulated before processing can begin. Often the speech coder requires some additional look-ahead beyond the frame to be encoded. The computational delay is the time that the speech coder takes to process the frame. For realtime operation, the computational delay has to be smaller than the algorithmic delay. A block of bits is generally assembled by the encoder prior to transmission, possibly to add error-correction properties to the bit stream, which cause multiplexing delay. Finally, there is the transmission delay, due to the time it takes for the frame to traverse the channel. The decoder will incur a decoder delay to reconstruct the signal. In practice, the total delay of many speech coders is at least three frames.
编码纠错[1]

2 语音识别

Fundamental Equation of Statistical Speech Recognition

解码(decoding)：把直接的观测结果看作是源码的编码，那么根据编码推测源码就是解码过程，是根本目的。解码可以是直接在可行解空间进行搜索。一般来说遍历搜索是不可行的，因为解空间是巨大的，甚至是无穷大的，普遍采用的是启发式搜索(即生成式搜索，另一种搜索思路是进化搜索)。

声学模型(Acoustic Modeling)

决定语音分布的因素（因此在生成训练样本需要下面因素的变化才能拟合正式环境下的语音分布）：

上下文
说话风格（情绪、语速、重音等）
说话人的习惯
说话环境

测量识别模型的正确率

语音采样

端点检测：

过零率[2]
谱熵分布
频带方差
二分类器
the EM algorithm can iteratively estimate the Gaussian parameters without having a precise segmentation between speech and noise segments.
短时分析

决定短时能量特性有两个条件：不同的窗口的形状和长度。
窗长越长，频率分辨率越高，而时间分辨率越低。如果很大，它等效于很窄的低通滤波器，此时随时间的变化很小，不能反映语音信号的幅度变化，信号的变化细节就看不出来；反之，窗长太小时，滤波器的通带变宽，随时间有急剧的变化，不能得到平滑的能量函数。
矩形窗谱平滑性能好，但损失高频成分，波形细节丢失，海明窗与之相反

MFCC

提取MFCC特征的过程：
1）先对语音进行预加重[3]、分帧[4]和加窗[5]；
2）对每一个短时分析窗，通过FFT得到对应的频谱[6]；
3）将上面的频谱通过Mel滤波器组[7]得到Mel频谱；
4）在Mel频谱上面进行倒谱分析（取对数，做逆变换，实际逆变换一般是通过DCT离散余弦变换来实现，取DCT后的第2个到第13个系数作为MFCC系数），获得Mel频率倒谱系数MFCC，这个MFCC就是这帧语音的特征；

Mel三角滤波器组

MFCC参数提取

![特征普遍采用的语音特征[8]](http://upload-images.jianshu.io/upload_images/3444195-0882821befe50ddc.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)

模板匹配法(传统)

模板匹配语音识别系统基本构成

语音识别模式匹配的问题：时间对准

同一个人在不同时刻说同一句话、发同一个音，也不可能具有完全相同的时间长度；
语音的持续时间随机改变，相对时长也随机改变；
端点检测不准确；

方法1：线性时间规整，均匀伸长或缩短 – 依赖于端点检测； – 仅扩展时间轴无法精确对准；
方法2：动态时间规整 – DTW－Dynamic Time Warping； – 60年代Itakura提出来的；其思想是：由于语音信号是一种具有相当大随机性的信号，即使相同说话者对相同的词，每一次发音的结果都是不同的，也不可能具有完全相同的时间长度。因此在与已存储模型相匹配时，未知单词的时间轴要不均匀地扭曲或弯折，以使其特征与模板特征对正。动态时间规整DTW是一个典型的优化问题，它用满足一定条件的时间规整函数描述输入模板和参考模板的时间对应关系，求解两模板匹配时累计距离最小所对应的规整函数。

DTW的问题：

运算量大；
识别性能过分依赖于端点检测；
太依赖于说话人的原来发音；
不能对样本作动态训练；
没有充分利用语音信号的时序动态特性；

DTW适合于特定人基元较小的场合，多用于孤立词识别；

语音的识别单元

phoneme是用于区别词汇的最小单元，音节(Syllables)介于音素和单词的中间，说话时一次发出的，具有一个响亮的中心，并被明显感觉的语音片断。为什么不以词语作为识别单元？词汇太多；无法应对新产生的词。声学单元越小，其数量也就越少，训练模型的工作量也就越小；但另一方面，单元越小，对上下文的敏感性越大，越容易受到前后相邻的影响而产生变异，因此其类型设计和训练样本的采集更困难。不过phone是一个相邻无关的单元，而triphone是考虑到相邻phone对当前phone的影响，于是认为只有当前后及本身的phone都相同时才认为是同样的triphone. 每个词的发音可能有多种变化方式，在子词串接时，必须有所体现。
替换：即词中的某个音子可能被用其它相似而略有差异的子词单元所替换。
插入和删除：词中有时增加了一个不是本词成分的子词单元，有时又将本词成分中的某个子词删除。

声学模型选择---声学单元如何组成词

声学模型

GMM-HMM声学模型

我们认为语音是由许多状态组成的一个HMM序列所生成出来的：每一个时刻t到达某个状态s，s按照自己的分布产生一个采样(观测)，这个采样就是MFCC参数，于是一段时间内产生了一个MFCC参数序列，即是特征提取后的语音。生成一段语音的GMM-HMM模型不是固定的，而是很多building block组合起来的，building block可以是一个状态，也可以是三个状态(triphone)。我们需要确定的模型参数就是所有这些building block的观测分布(GMM参数)以及它们之间的相互转移与自转移概率(HMM参数)。另外，根据一段语音的MFCC参数，在已知GMM、HMM参数的情况下，计算可能的状态序列概率，以找出最大可能的状态序列(decoding).

对于一个给定的观测序列(O1,O2,O3)，计算某状态序列(1->2->2)的概率。可以看到每隔状态对应一个分布，而观测是分布的一个采样

根据HMM的分布观测样本空间的是否离散，HMM分为离散HMM和连续HMM. 由于原始输入的信号是连续空间的，转化为离散HMM需要进行"采样"，也就是将连续样本空间划分成M块，用块值代替原始的样本。
半连续HMM（SCHMM）：相当于离散HMM和连续HMM的混合。状态输出的特征向量是连续的，也是用多个高斯分布的加权和来近似概率分布函数，但是用来作加权和的高斯函数的集合是固定的，类似于对高斯密度函数建立了“码本”，各个状态输出概率密度之间不同的是对“码本”中各个高斯密度函数的加权系数。
训练过程分为两个部分：GMM、HMM

GMM参数训练
HMM参数训练

GMM没有利用帧的上下文信息 • GMM不能学习深层非线性特征变换

DNN-HMM

CTC
- 不要需要输入与输出帧级别的对齐信息，不用和HMM模型结合
- 约90%的帧其对应的输出为空（blank），可以采取跳帧，加快解码速度
- 因解码速度快，识别性能也较优，所以工业界大多采用这种模型

连续语音识别的声学模型和语言模型

大词汇量连续语音识别技术

3 语音合成

文本分析的主要功能是使计算机知道要发什么音、怎么发音，并将发音的方式告诉计算机。对于汉语来说，还要让计算机知道文本中的词边界、短语边界、句子边界，以便发音时设置不同长度的停顿。文本分析还应将汉字、符号、数字等转换成适当的拼音。
• 文本分析的结果既要告诉计算机发什么音，也要告诉计算机以什么方式发音。如：发音的声调；音节是长还是短；是重还是轻；是高还是低；到哪儿应该停顿，停顿的长短。TTS系统要给出代表这些韵律特征的声学参数，这就是韵律生成模块的功能。
• 计算机知道要说什么以及有了韵律控制参数后，计算机通过声学模块产生语音输出。在系统中，声学模块负责产生合成语音。声学模块从语音数据库中选取适当的语音基元，拼接成语句，再经过韵律修饰，就可以输出自然连续的语声流。
• 文本分析、韵律生成可以采用基于规则或基于数据驱动的方法。韵律修饰可以直接改变波形或进行参数变换。

主要分为三个步骤：

音素分析(phonetic analysis)：
将文本转化为对应的音素序列，主要依靠查表。句子切分、句子分词、POS，非标准词处理，同形字辨别(Homograph Disambiguation)
韵律分析(prosodic analysis)：对音素序列添加适当的停顿和延迟信息，这也是prosody与phoneme之间的区别。停顿添加的训练是用二分类器

利用人工标注的韵律分解，使用决策树作二为分类器

基频建模
- 基于规则的方法 – 通常规则系统包括两个方面，一是汉语的通用规则，比如汉语的4个调的基本形状，上声连接的变调规则，时长变化，语气语调的音高变化等；二是目标说话人的特定韵律特征规则，比如个人的基本调型、调域、语速停顿规则。
- 基于数据驱动的方法
  数据驱动模型通常考虑哪些上下文信息
  短语信息：短语中音节的个数、词的个数，短语在句子中的位置
  词信息：词长，词性，词在短语中的位置 • 音节信息：声韵母类型，声调，在词中位置，在短语中位置，前音节信息和后音节信息。

语音合成(waveform synthesis)：将上述音素序列转化为波形信号
有两种方式：

作者：艺术叔
链接：https://www.jianshu.com/p/2b83e68a055b
来源：简书
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

jack_201316888

关注

0
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
《语音信号处理》整理

reference《spoken language processing》1 语音基础名词解释 pitch 音调以HZ为单位基频又称音高能量又称音强说话的声音（声带震动）和其他声音相比，有独特的时域和频域模式。声带的震动产生基频(fundamental frequency)，口腔共振(the pharyngeal and oral resonance cavities)等产生高频谐波基频就是声带的闭-开频率声道模型...
复制链接

扫一扫