Codec2语音编码技术小结

dahuan_debug

已于 2023-11-24 16:49:38 修改

阅读量2.3k

点赞数 4

分类专栏：语音音频编解码文章标签：实时音视频音视频

于 2023-11-21 15:34:37 首次发布

本文链接：https://blog.csdn.net/dahuan_debug/article/details/134531770

版权

语音音频编解码专栏收录该内容

1 篇文章

订阅专栏

Codec2语音编码技术小结

（1）

作为音频编解码方向的一个分支，低码率语音压缩技术有广泛的应用场景。目前学习一个优秀的语音编码库Codec2（非Android Codec2框架），从demo的接口使用，到库中模块实现，见招拆招，一点点去了解背后实现原理。

首先，先对于音频编解码标准有个大致的介绍：

编码技术	压缩效率	应用场景
MPEG-1 编码-audio layer 1	384kbps（压缩 4 倍）	数字盒式录音磁带
MPEG-1 编码-audio layer 2	256～192kbps（压缩 6～8 倍）	数字音频广播(DAB)和 VCD
MPEG-1 编码-audio layer 3	128～112kbps（压缩 10～12 倍）	MP3 音乐
AAC(Advanced Audio Coding）	96-128 kbps	Ipod, 取代mp3格式
Dolby AC-3	64kbps	环绕立体声，数字电视、家庭影院
AMR（Adaptive Multi-Rate）	不同码率适用不同场景（16kbps=电话音质、112kbps=FM 调频立体声广播、192kbps=CD）	移动设备，语音电话
超低码率技术	<=5kbps	对讲技术

对于多媒体语音，我们熟悉有熟悉的MP3，AAC格式，对于通话voip，使用了AMR格式；而超低码率技术，则主要应用在语音对讲领域。

语音编解码器通常分为以下三种类型：波形编译码器、音源编译码器、混合编译码器。

其比特率与语音质量关系所示：

在语音领域中厂家提供语音处理芯片，而Codec2开源项目的出现，绕开了专利限制，提供了一个优秀的语音处理框架。

例举以下语音处理算法：

1. MELP and MELPe Vocoder (codec)：

支持 2400 bit/s ，1200 bit/s，600 bit/s，300 bit/s，需要向Compandent购买。

2. HVXC@MPEG4 Audio：HVXC(Harmonic Vector Excitation Coding)

固定比特率有：2kbps和4kbps。可变比特率有：1.2~1.7kbps，需要向MPEG购买。

3.AMBE :

AMBE-LR: 1.6 - 1.8 kbps，需要向DVSI购买(Digital Voice Systems, Inc.)。

4. Codec 2

开源免费 700 bit/s ~ 3200 bit/s。音质介于LPC-10与MELP/AMBE之间。

（2）

那言语是如何生成的？为什么可以通过数学模型去建模这个过程？再来了解下发声生理原理：

简单来说言语产生是由三个系统（呼吸系统、发声系统和构音系统）的共同作用实现的。

贮存在肺、气管与支气管内的气体有规律地随呼气运动排出，形成气流。当气流到达声门处时，被转变成一系列的脉冲信号（声门波）。然后通过声道的共鸣作用，形成具有适当形态的声波，最终由嘴和鼻发出言语信号（声波）。

定义语音数学模型为：激励-滤波模型

语音信号经过传输，通过播放设备再次形成声波震动，传入人耳。

语音的编码过程既然是信号处理的过程，涉及信号的时域频域转化，根据傅里叶级数定义，周期函数可以用正弦函数和余弦函数构成的无穷级数来表示。

时频神图展示：

把信号从时域变换到频域，通过频率，幅值，相位的特征进行描述。

那语音的特征都有哪些？怎么在语音信号的时域和频域中体现呢？

需要了解下先，语音的三要素：音量、音调、音色。

波形的振幅决定了声音的响度大小，基频频率决定了音调，谐波和共振峰决定了音色。

在时域语音：

在频域语音：

在语音编码过程中就是通过算法去提取这些重要特征，用特征集合去还原音频，从而达到极高的压缩效率。

此外，以下几个概念也很重要：

频谱图与语谱图：

频谱图就是语音帧的频域变换（FFT）：

语谱图是以时间为横坐标，纵坐标装入频谱，通过二维坐标表示出了三维信息。

如图，横坐标是时间，纵坐标是频率，坐标点值为语音数据能量，能量值的大小是通过颜色来表示的，颜色越深表示该点的能量越强。一条条横方向的条纹，称为“声纹”。它因人而异，即不同讲话者语谱图声纹是不同的，因而可以用声纹鉴定不同的讲话人。

语谱图中的花纹有横杠、乱纹和竖直条等，横杠是和时间轴平行的几条深色带纹，它们相应于短时谱中的几个凸出点，即共振峰，有没有横杠出现是判断它是否是浊音的重要标志。

浊音与清音：

浊音，当声带处于收紧状态，流经的气流使声带振动，例如一般的母音等。当说话时手按喉咙能感到振动，那就是浊音。

清音，当声带处于放松状态，不伴有声带振动的音，手按喉咙没震动就是清音；

前面提到的激励-滤波模型，可以这样理解：气流与声门，等效为激励源；对应的是激励频率，也就是基音频率F0；声道，等效为滤波器；对应的是谐振频率。

这些语音的基本概念的中英对照如下，看论文对应上，别云里雾里。

音调	Pitch
音色	Timbre
基频	Fundamental	定义音调
谐波	Harmonics	决定音色
共振峰	Formant	决定音色
频谱	Spectrum
语谱图	Spectrogram	频谱+时间
浊音	Voiced	对于10ms一帧语音，给出清浊判断，其影响激励源生成
清音	Unvoiced	对于10ms一帧语音，给出清浊判断，其影响激励源生成
激励源	Excitation	清音激励源白噪声；浊音激励源根据基频及相位生成；

（3）

了解了以上的语音基础知识，让我们再学习下Codec2是如何工作的，当然这部分的学习要参照作者David Grant Rowe的博士论文《Techniques for Harmonic Sinusoidal Coding》来看。

对于具体的算法的理解随缘吧，对于一些重要的概念，找了下相关定义：

线性预测编码（Linear Predictive coding ，LPC），是一种用于语音信号压缩和分析的方法。在LPC模型中，语音信号被看作是由若干个共振峰和各自对应的带通滤波器的输出叠加而成的。LPC算法估计线性滤波器的系数，该滤波器可以近似信号的谱包络，这些系数被称为线性预测系数（Linear Predictive Coefficients，LPCs）。线性预测系数一般用于描述这些带通滤波器的特性，包括各自的带宽、增益和位置等。对声音波形的编码转化为对参数编码，使声音数据量大大减少；解码端通过合成器重构话音，合成器是一个时变线性滤波器，代表了人的话音生成系统模型。

线谱对（Line Spectral Pairs，LSP）是对线性预测系数的直接数学变换，即对线性预测系数进行表征。通过线谱对频率的疏密程度来反应语音信号的谱特点。LSP具有良好的量化特性和高效性的表达性，因此在语音编码中被广泛运用。

量化（ Quant ），指将信号的连续取值（或者大量可能的离散取值）近似为有限多个（或较少的）离散值的过程。

多带激励（Multi-Band Excitation，MBE ），把语音频谱划分为多个频带，对每个带进行二元清浊判断，然后对不同的带采用相应的激励信号，最后将各带合成信号叠加，形成全带合成信号，正式由于平铺分带分析合成，故成为多带激励。

对于数字对讲系统架构如下：