音频信号处理——音频矢量化

最新推荐文章于 2024-06-19 23:20:46 发布

楼桑下的龙雏

最新推荐文章于 2024-06-19 23:20:46 发布

阅读量2.5k

点赞数 1

分类专栏：声音处理

声音处理专栏收录该内容

3 篇文章 0 订阅

订阅专栏

音频信号处理——音频矢量化

标签（空格分隔）：音频处理

一、简介

矢量量化（VQ，Vector Quantization）是一种极其重要的基于块编码规则的有损数据压缩方法。广泛应用于语音编码、语音识别和语音合成等领域。事实上，在 JPEG 和 MPEG-4 等多媒体压缩格式里都有 VQ。它的基本思想是：将若干个标量数据组构成一个矢量，然后在矢量空间给以整体量化，从而压缩了数据而不损失太多信息。

在以前，VQ运用的一个难点在于它要要解决一个多维积分（multi-dimensional integration）的问题。后来，在1980年，Linde, Buzo和Gray（LBG，这个缩写也是LBG算法的命名）提出一种基于训练序列的VQ设计算法，对训练序列的运用绕开了多维积分的求解，使得世上又诞生了一种经典的被世人称为LBG-VQ的算法！

二、VQ

VQ 是一种近似逼近，类似于将 double 转化为二进制的 Int。举个例子，可以看我的地图，中国有很多的城市，如果一一列举会很长，但是我们有省啊。一提海淀肯定是北京，于是数据就被压缩了。

VQ问题可以这样描述：给定一个已知统计属性的矢量源（也就是训练样本集，每一个样本是一个矢量）和一个失真测度。还给定了码矢的数量（也就是我们要把这个矢量空间划分为多少部分，或者说量化为多少种值），然后寻找一个具有最小平均失真度（数据压缩，肯定是失真越小越好）的码书（所有码矢的集合，也就是上面的那些省的省会）和空间的划分（图中所有省的边境）。

设训练样本的训练序列（训练集）为 $T={x_1,x_2,...,x_M}$ ，M 为训练样本（矢量源）的个数。

如果 M 足够大，那么训练集就会包含数据源的所有统计特性。设矢量是 K 维：

x m = （ x m, 1, x m, 2, . . ., x m, k ）, m \in 1, 2, . . ., M

$x_m=（x_{m,1},x_{m,2},...,x_{m,k}）,m\in{1,2,...,M}$

假设码矢的数目是 $N$ （有 $N$ 个省），码书表示为 $C={c_1,c_2,...,c_N}$ 。每个码矢是 $k$ 维向量为 $c_n=(c_{n,1},c_{n,2},...,c_{n,k}),n\in{1,2,...,N}$ 。

与码矢 $c_n$ 对应的编码区域为 $S_n$ ，然后将空间的划分为： $P={S_1,S_2,...,S_N}$ （S 为省）。

如果源矢量 $x_m$ 在 $S_n$ 内，那么其近似 $Q$ 为 $c_n$ （省会）,

Q (x m) = c n, i f x m \in S n

$Q(x_m)=c_n,if x_m\in{S_n}$

假设采用均分误差失真度量（也可以用其他），那么平均失真度表示如下：

D = 1 M k \sum m = 1 M ∥ x m - Q (x_m) ∥ 2

$D = \frac{1}{{Mk}}\sum\limits_{m = 1}^M {{{\left\| {{x_m} - Q\left( {x\_m} \right)} \right\|}^2}}$ 其中

∥e∥2 ${\left\|e \right\|}^2$ 。

于是乎，VQ 问题就是：

给定T（训练集）和N（码矢数目），找到能使D（平均失真度）最小的C（码书）和P（空间划分）。

四、优化标准

如果 $C$ 和 $P$ 是上面最小化问题的最优解，则解的应满足以下两个条件：

4.1 最近邻条件(Nearest NeighboCondition):

S n = {x : ∥ x - c n ∥ 2 \leq ∥ x - c n' ∥ 2, \forall n' = 1, 2, . . ., N}

${S_n} = \left\{ {x:{{\left\| {x - {c_n}} \right\|}^2} \le {{\left\| {x - {c_{n'}}} \right\|}^2},\forall n' = 1,2,...,N} \right\}$

即城市离哪个省会进，就属于哪个省（这和显示生活不大一样，大家明白这个意思就好了）。那如果到每个省会距离一样怎么办？在边界处怎么划分呢？就用决策方法（any tie-breaking procedure）。

4.2 质心条件(Centroid Condition):

c n = \sum x m \in S n x m x m \in 1, n = 1, 2, . . ., N

${c_n} = \frac{{\sum\limits_{{x_m} \in {S_n}} {{x_m}} }}{{{x_m} \in 1}},n = 1,2,...,N$

这个条件要求码矢 $c_n$ 是编码区域 $S_n$ 内所有的训练样本向量的平均向量。在实现中，需要保证每个编码区域至少要有一个训练样本向量，这样上面这条式的分母才不为0。

五、LBG 算法

LBG 是一个迭代算法，对训练序列的运用绕开了多维积分的求解，他的迭代过程就是交替调整 $P$ 和 $C$ ，满足上面两个条件并使失真度不断地趋向于它的局部最小值。像其他的迭代算法一样，LBG需要一个初始的码书 $C^0$ 。这个初始码书可以通过分裂（splitting）方法得到。这个方法主要是把一个初始码矢设置为所有训练样本的平均值。然后把这个码矢分裂成两个（分裂的方式见下面的LBG算法的第3步的公式，只要是乘以一个扰乱系数）。把这两个码矢作为初始的码书，然后迭代算法就在这个初始的码书上面跑。它每一次都将每个码矢分裂为2个，重复这个过程，直到获得要求的码矢个数。1个分裂为2个，2个分裂为4个，4个分裂为8个……