基于线性预测的语音编码原理解析

拍乐云Pano

于 2021-09-24 21:29:55 发布

阅读量1.6k

点赞数 1

CC 4.0 BY-SA版权

文章标签：人工智能音频 rtc 数字信号处理

本文链接：https://blog.csdn.net/Pano2019/article/details/120351724

本文介绍了基于线性预测的语音编码原理，包括语音的发声模型、线性预测编码（LPC）及其在音频编码中的应用。LPC通过分析语音信号的时间冗余，利用线性预测模型进行编码，以实现高效压缩。Levinson-Durbin算法用于求解预测系数，格型滤波器解决了高阶滤波器的计算和稳定性问题。LPC全极点模型的阶数影响编码的精度和音质。

早期的音频系统都是基于声音的模拟信号实现的，在声音的录制、编辑和播放过程中很容易引入各种噪声，从而导致信号的失真。随着信息技术的发展，数字信号处理技术在越来越多领域得到了应用，数字信号更是具备了易于存储和远距离传输、没有累积失真、抗干扰能力强等等，信号和信号处理都往数字化发展。为了使得数字音频可以被高效地压缩存储并高品质地还原，数字音频的编码技术就变成至关重要的一个部分了。本篇文章会介绍当今的音频的编码器(传统算法非深度学习)的两大主流阵营之一的基于线性预测的语音编码器的原理。

01 音频的编码器分类及简介

比较流行基于传统算法的音频的编码器基本可以分成两个大的类别：

Audio Codec(音频编码器): aac, mp3, ogg, celt(inside of opus) …

Speech Codec(语音编码器): ilbc, isac, silk(inside of opus) …

而这两种编码器类型基于完全不同的编码原理，Audio Codec (音频编码器)利用了人类听觉感知系统的特性来研究音频编码的方法，可以对较多音源，复杂信号进行高品质的编码。而Speech Codec (语音编码器)是以语音生成模型为基础，可以对单个音源(人或者一些乐器的发音器官单元)进行更低码率的高效编码。
为什么已经有了可以对较多音源，复杂信号进行高品质编码的Audio Codec，还需要研究和发展Speech Codec呢？
因为应用领域的需求完全不一样。Audio Codec的应用领域更多和音乐有关，研究的是在保证尽量小的感知失真的前提下，对声音进行压缩编码。早期mp3想要实现高品质所需要的编码码率还是比较高的，压缩比并不高。而早期的数字电信系统的带宽有限，如何可以用尽量小的带宽实现可以还原出清晰的语音则成了Speech Codec的任务。更多在8kHz和16kHz采样率下实现较低码率的编码。

02 语音的发声模型和特性

既然需要设计一款专门针对语音的编码器，那肯定要先研究一下语音的一些特性。
1. 人的发声模型

总的来说，人的发声模型可以分成三个部分：

由肺和气管产生生气源
喉和声带组成声门
咽腔，口腔，鼻腔等组成声道

人的发声过程基本过程可以这样描述：由肺部挤压产生流动高压气体，通过气管，经过喉咙，喉咙控制相关软骨组织和肌肉组织(其中最为重要为声道)进行复杂运动，最终声带在控制下进行合拢或者分离，最终产生了声音的激励，再经过咽腔、口腔、鼻腔共鸣最终形成声音。

2. 语音信号的一般分类
人发出不同的声音时，语音激励和声道的情况也是完全不同的，发出的声音基本可以分类为两种类型:
浊音：空气流经过声带时，声带呈紧绷状态，并产生张弛振动，即声带进行周期性的开启和闭合，空气流经

最低0.47元/天解锁文章