线性预测编码（LPC）系数详解

DuHz

于 2025-04-11 17:46:36 发布

阅读量976

点赞数 34

文章标签：机器学习算法人工智能信号处理信息与通信

本文链接：https://blog.csdn.net/qq_44648285/article/details/147150459

版权

线性预测编码（LPC）系数详解

1. 引言

线性预测编码（Linear Predictive Coding, LPC）是一种在语音处理、音频压缩和信号分析中广泛使用的技术。它基于这样一个思想：当前的信号样本可以通过其过去若干个样本的线性组合来预测。LPC算法计算出的系数描述了这种线性关系，这些系数能够高效地表示语音信号的特征，特别是声道的共振特性。

2. 线性预测的基本原理

2.1 基本思想

线性预测的核心思想非常直观：我们可以通过过去的几个样本值的加权和来预测当前的样本值。用数学表达式表示：

$\hat{x}(n) = \sum_{k=1}^{p} a_k x(n-k)$

其中：

$\hat{x}(n)$ 是对当前样本 $x (n)$ 的预测值
$a_k$ 是线性预测系数（即LPC系数）
$p$ 是预测的阶数，表示使用了过去多少个样本进行预测
$x (n - k)$ 是过去的第k个样本

2.2 预测误差

预测自然不会完全准确，预测误差定义为实际值与预测值的差：

$\hat{x}(n) = x(n) - \sum_{k=1}^{p} a_k x(n-k)$

LPC的目标就是寻找一组系数 $a_k$ ，使得预测误差的平方和（或均方误差）最小：

$\sum_{n} e^2(n) = \sum_{n} \left(x(n) - \sum_{k=1}^{p} a_k x(n-k)\right)^2$

3. LPC系数的计算方法

计算LPC系数的方法有多种，以下介绍几种常用方法：

3.1 自相关法

自相关法是最常用的LPC系数计算方法之一。其步骤如下：

3.1.1 计算自相关函数

首先，计算信号的自相关函数：

$\sum_{n=0}^{N-1-i} x(n) \cdot x(n+i), \quad i = 0, 1, 2, ..., p$

其中N是信号的长度，p是预测阶数。

3.1.2 建立方程组

然后，根据最小二乘法，可以得到如下的p阶线性方程组（也称为Yule-Walker方程）：

$\begin{pmatrix} R(0) & R(1) & R(2) & \cdots & R(p-1) \\ R(1) & R(0) & R(1) & \cdots & R(p-2) \\ R(2) & R(1) & R(0) & \cdots & R(p-3) \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ R(p-1) & R(p-2) & R(p-3) & \cdots & R(0) \end{pmatrix} \begin{pmatrix} a_1 \\ a_2 \\ a_3 \\ \vdots \\ a_p \end{pmatrix}= \begin{pmatrix} R(1) \\ R(2) \\ R(3) \\ \vdots \\ R(p) \end{pmatrix}$

或简写为：

$R a = r$

3.1.3 求解方程组

由于自相关矩阵R是对称Toeplitz矩阵（即对角线上的元素相等），可以使用Levinson-Durbin递归算法高效求解：

Levinson-Durbin递归算法:

初始化： $E^{(0)} = R(0)$
对于 $i = 1, 2, ..., p$ ，执行：
- 计算反射系数 $k_i$ ：
$k_i = \frac{R(i) - \sum_{j=1}^{i-1} a_j^{(i-1)} R(i-j)}{E^{(i-1)}}$
- 更新 $a_i^{(i)}$ ：
$a_i^{(i)} = k_i$
- 更新 $a_j^{(i)}$ 对于 $j = 1, 2, ..., i - 1$ ：
$a_j^{(i)} = a_j^{(i-1)} - k_i a_{i-j}^{(i-1)}$
- 更新预测误差能量：
$E^{(i)} = (1 - k_i^2) E^{(i-1)}$
最终的LPC系数为： $a_j = a_j^{(p)}$ ， $j = 1, 2, ..., p$

3.2 协方差法

协方差法与自相关法类似，但边界处理有所不同：

计算协方差矩阵：

$\phi(i,j) = \sum_{n=p}^{N-1} x(n-i) \cdot x(n-j), \quad 1 \leq i,j \leq p$

计算协方差向量：

$\phi(0,j) = \sum_{n=p}^{N-1} x(n) \cdot x(n-j), \quad 1 \leq j \leq p$

求解线性方程组：

$\begin{pmatrix} \phi(1,1) & \phi(1,2) & \cdots & \phi(1,p) \\ \phi(2,1) & \phi(2,2) & \cdots & \phi(2,p) \\ \vdots & \vdots & \ddots & \vdots \\ \phi(p,1) & \phi(p,2) & \cdots & \phi(p,p) \end{pmatrix} \begin{pmatrix} a_1 \\ a_2 \\ \vdots \\ a_p \end{pmatrix}= \begin{pmatrix} \phi(0,1) \\ \phi(0,2) \\ \vdots \\ \phi(0,p) \end{pmatrix}$

协方差法对短数据段效果更好，但计算复杂度高于自相关法。

3.3 格型格式（Lattice Form）和预测残差

LPC分析还可以用格型滤波器表示，其中包含一系列反射系数（Reflection Coefficients）或PARCOR系数（偏自相关系数）。

格型结构的递归方程为：

$\begin{align} f_i^{(0)}(n) &= b_i^{(0)}(n) = x(n-i), \quad 0 \leq i \leq p \\ f_i^{(m)}(n) &= f_i^{(m-1)}(n) - k_m b_{i-m}^{(m-1)}(n), \quad m \leq i \leq p \\ b_i^{(m)}(n) &= b_{i-1}^{(m-1)}(n) - k_m f_{i-m}^{(m-1)}(n), \quad m \leq i \leq p \end{align}$

其中， $f$ 和 $b$ 分别表示前向和后向预测误差， $k_m$ 是第m级的反射系数。最终的预测残差为：

$e(n) = f_p^{(p)}(n)$

4. LPC系数的特性与意义

4.1 物理意义

从声学角度看，LPC系数描述了声道的共振特性。具体来说：

声道模型：人的声道可以近似为一个变截面的声学管道，LPC系数描述了这个管道的形状。
共振峰（Formants）：LPC谱包络的峰值对应声道的共振频率，这些共振峰是语音识别的重要特征。
声门激励：预测残差 $e (n)$ 近似表示声门的激励信号。

4.2 稳定性条件

为了确保LPC综合滤波器的稳定性，所有LPC系数必须满足一定条件。具体来说，LPC综合滤波器的传递函数为：

$\frac{G}{1-\sum_{k=1}^{p} a_k z^{-k}}$

其中G是增益因子。为了使系统稳定，传递函数的所有极点必须在单位圆内，即特征多项式：

$1-\sum_{k=1}^{p} a_k z^{-k}$

的所有根的模必须小于1。

4.3 反射系数与稳定性

反射系数与系统稳定性之间有一个简单的关系：

当且仅当所有反射系数 $k_i| < 1$ 时，系统稳定。
反射系数也与声学管道的物理特性有关，描述了声波在管道截面变化处的反射情况。

4.4 线谱对（Line Spectral Pairs, LSP）

线谱对是从LPC系数导出的另一种表示方式，具有良好的插值特性和量化性能：

从LPC多项式 $A (z)$ 构造两个多项式：

$P(z) = A(z) + z^{-(p+1)} A(z^{-1})$
$Q(z) = A(z) - z^{-(p+1)} A(z^{-1})$

这两个多项式的根在单位圆上交替分布，这些根的角度就是线谱频率（LSF）。

LSP转换公式：

对于偶数阶 $p$ ：

$z^{-(p+1)} A(z^{-1}) = (1-z^{-2}) \prod_{i=1}^{p/2} (1-2q_{2i-1}z^{-1}+z^{-2})$
$z^{-(p+1)} A(z^{-1}) = (1+z^{-1}) (1-z^{-1}) \prod_{i=1}^{p/2-1} (1-2q_{2i}z^{-1}+z^{-2})$

对于奇数阶 $p$ ：

$z^{-(p+1)} A(z^{-1}) = (1+z^{-1}) \prod_{i=1}^{(p-1)/2} (1-2q_{2i}z^{-1}+z^{-2})$
$z^{-(p+1)} A(z^{-1}) = (1-z^{-1}) \prod_{i=1}^{(p+1)/2} (1-2q_{2i-1}z^{-1}+z^{-2})$

其中， $q_i = \cos(\omega_i)$ ， $\omega_i$ 是线谱频率。

5. LPC系数的实际应用

5.1 语音编码

LPC是多种语音编码标准的基础，如：

线性预测编码（LPC-10）：以每秒2.4kbps的比特率编码语音
码激励线性预测（CELP）：更高质量的语音编码
自适应多速率（AMR）：移动通信中的语音编码标准

基本编码流程：

分帧：将语音信号分成20-30ms的短帧
预处理：加窗、预增强等
LPC分析：计算每帧的LPC系数
量化：对LPC系数（或其变体如LSP）进行量化
残差编码：对预测残差进行编码（如使用长期预测或码本）
传输：发送量化后的LPC系数和残差信息

5.2 语音识别

在语音识别中，LPC系数（或由其导出的特征）用于：

特征提取：描述语音的频谱包络特性
降低维度：将语音信号转换为低维特征向量
模式匹配：与储存的模板进行比较

5.3 说话人识别

LPC系数对说话人的声道特性有良好的表征能力，因此在说话人识别中广泛使用：

特征提取：提取能够区分不同说话人的特征
统计建模：使用LPC特征建立说话人的声学模型
决策：通过比较模型进行说话人识别

6. LPC分析的实用考虑

6.1 预增强

在进行LPC分析前，通常会对信号进行预增强处理，最常用的是一阶高通滤波：

$\alpha x(n-1), \quad 0.9 \leq \alpha \leq 0.95$

这有助于提高高频分量的相对能量，改善LPC分析的准确性。

6.2 窗函数选择

常用的窗函数包括：

汉明窗（Hamming）： $0.46\cos(2\pi n/(N-1))$
汉宁窗（Hanning）： $0.5\cos(2\pi n/(N-1))$
矩形窗： $w (n) = 1$

汉明窗是语音处理中最常用的窗函数，能够在时域和频域特性之间取得良好平衡。

6.3 阶数选择

LPC阶数p的选择基于多种因素：

采样率：一般原则是，对于采样率为Fs（kHz）的信号，阶数p ≈ Fs+4
- 8kHz采样率：p = 10-12
- 16kHz采样率：p = 16-20
计算复杂度：更高的阶数需要更多计算
应用需求：不同应用可能需要不同精度的谱估计

6.4 帧长与帧移

典型设置：

帧长：20-30ms（保证信号在一帧内近似平稳）
帧移：10-15ms（提供足够的时间分辨率且保证相邻帧之间有重叠）

7. LPC系数的变体与相关参数

7.1 倒谱系数（Cepstral Coefficients）

从LPC系数可以导出倒谱系数：

$c(0) = \ln(G^2)$
$a_m + \sum_{k=1}^{m-1} \frac{k}{m} c(k) a_{m-k}, \quad 1 \leq m \leq p$
$\sum_{k=1}^{m-1} \frac{k}{m} c(k) a_{m-k}, \quad m > p$

其中G是LPC增益。

7.2 LAR参数（Log Area Ratio）

LAR（对数面积比）是基于反射系数的另一种表示：

$LAR_i = \ln\left(\frac{1+k_i}{1-k_i}\right)$

LAR参数在量化时具有较好的性能。

7.3 PARCOR系数

PARCOR（偏自相关）系数就是Levinson-Durbin算法中的反射系数 $k_i$ 。

7.4 LSF参数（Line Spectral Frequencies）

LSF是线谱对的频率表示，具有以下优点：

排序性：LSF总是按升序排列
稳定性保证：保持LSF的升序排列，即可保证滤波器稳定性
良好的插值特性：适合帧间平滑过渡

8. 深入理解：LPC与全极点模型

8.1 全极点模型的概念

LPC本质上是用全极点模型（只有极点，没有零点）来拟合信号的功率谱：

$\frac{G}{1-\sum_{k=1}^{p} a_k z^{-k}} = \frac{G}{\prod_{i=1}^{p}(1-p_i z^{-1})}$

其中 $p_i$ 是系统的极点。

8.2 频谱包络估计

LPC谱估计公式：

$P_{LPC}(e^{j\omega}) = \frac{G^2}{|1-\sum_{k=1}^{p} a_k e^{-j\omega k}|^2}$

这个估计在极点附近（即信号的共振频率处）表现最好。

8.3 格型结构的解释

格型结构可以看作是一系列连接的声学管道：

每个反射系数 $k_i$ 代表声波在管道截面变化处的反射比例
当声波遇到截面变化时，部分能量被反射，部分能量继续传播
这与人类声道的实际物理模型相符合

9. 实例：如何计算和使用LPC系数

9.1 MATLAB/Octave实现示例

以下是一个简单的MATLAB/Octave函数，用于计算LPC系数：

function [a, g] = lpc_analysis(x, p)
    % 计算自相关
    r = xcorr(x, p, 'biased');
    r = r(p+1:2*p+1);
    
    % 构建Toeplitz矩阵
    R = toeplitz(r(1:p));
    
    % 求解Yule-Walker方程
    a = R \ r(2:p+1);
    
    % 计算增益
    g = sqrt(r(1) - r(2:p+1)' * a);
    
    % 将系数格式调整为常规形式
    a = [1; -a];
end

9.2 具体分析实例

假设我们有一个语音信号帧，要提取其LPC系数：

加窗：应用汉明窗到信号帧
计算LPC系数（使用上述函数）
计算功率谱：比较原始信号谱和LPC谱估计
提取特征：如线谱对或倒谱系数

9.3 合成实例

使用LPC系数和残差信号合成语音：

function y = lpc_synthesis(lpc_coef, residual, frame_length)
    y = zeros(frame_length, 1);
    p = length(lpc_coef) - 1;
    
    % 初始条件
    past_samples = zeros(p, 1);
    
    for n = 1:frame_length
        % 用过去的样本计算预测值
        pred = lpc_coef(2:end)' * past_samples;
        
        % 当前输出 = 预测值 + 残差
        y(n) = pred + residual(n);
        
        % 更新过去的样本
        past_samples = [y(n); past_samples(1:p-1)];
    end
end