VIOP的一些基础笔记

最新推荐文章于 2024-02-19 17:18:41 发布

原创最新推荐文章于 2024-02-19 17:18:41 发布 · 1.6k 阅读

8 ·

CC 4.0 BY-SA版权

语音隐写分析专栏收录该内容

6 篇文章

订阅专栏

本文深入探讨了AMR编码技术，包括其工作原理、固定码本(FBC)、线性预测参数(LPC)及自适应码本(ACB)等关键组件。详细分析了基于AMR的语音隐写方法，如信息嵌入和检测技术，以及特征构造和机器学习在隐写分析中的应用。

一、191206 QUESTION

1.什么是AMR编码？

AMR编码采用ACELP标准编码。在编码过程中，编码器通过自适应码本和固定码本确定激励信号，使其通过线性预测合成过滤器，生成合成信号，又通过对合成信号和原始信号的比较不断调整自适应码本和固定码本，使加权误差达到最小化完成自适应码本和固定码本的搜索以获得最佳的语音质量。AMR根据对应的音频带宽不同，分为AMR-NB和AMR-WB，其中AMR-NB编码的12.2kbit/s模式常被使用，每帧有4子帧，共244比特，每子帧长度为20ms。

2.什么是G.723.1编码？

3.什么是G.729A编码？

采用了依合成分析AbS进行语音编码，AbS 技术的核心思想是将解码器加入编码器中。在编码过程中，编码器通过将解码器输出的合成语音与原始语音进行比较，不断搜索固定码本，降低合成语音与原始语音之间的误差，以提高合成语音的语音质量。

图描述了基于 AbS 技术的压缩语音编解码流程，图b的解码器端由固定码本产生激励信号，通过长时预测合成滤波、短时预测合成滤波以及自适应后置滤波生成合成语音。

二、191206 QUESTION

1.什么是FBC？（固定码本）

固定码本搜索方法：使合成信号和原始信号的加权误差达到最小化，即最大化Ak，采用深度优先树算法。
1，第一个脉冲i0的位置是通过搜索所有脉冲位对应的相关信号的全局最大值所在的位置确定的。即，第一个脉冲i0的位置总是与相关信号的全局最大值对应。
2，4次迭代对固定码本进行搜索，每次迭代中，第二个脉冲i1会挑选剩下的4个脉轨之一的脉轨，获取使得相关信号最大的脉冲位，使第二个脉冲的位置与相关信号的局部最大值对应。4次迭代后，每个脉轨均会被i1选择一次。
3，在剩下的8个脉冲的搜索中，脉冲位置按照成对的模式依序进行搜索使得式Ak达到最大，其中的脉冲对分配分别是{i2,i3}, {i4,i5}, {i6,i7} 和{i8,i9}。由于每个脉冲分别有8个候选脉冲位，因此每次迭代共计搜索8×8×4=256 次。
在每次迭代过后，除脉冲i0外所有9个脉冲的初始位置都会循环推移一次，这样就能保证在每次迭代中脉冲i1所在的脉轨均不一样，这也改变了脉冲对在搜索过程中搜索的脉轨。使得搜索结果更接近最优解。

2.什么是LPC？（线性预测参数）

语音本身存在相关性，在进行信号采样时可以利用过去的采样值来估计当前的采样值，即一个语音采样值可以通过过去若干个语音采样值的线性组合来逼近，并可以在最小化实际采样值和预测采样值之间的均方误差来唯一确定一组预测系数，即线性预测参数 LPC。

3.什么是ACB？（自适应码本、基因延迟）

自适应码本参数被用于表示语音信号的周期性结构=基音参数 (即基音延迟,基音周期的值)+基音滤波器增益(即基音增益)。
自适应码本搜索(基音搜索)获得最佳的基音周期和基音增益。基音周期是指声带震动发声的周期,是语音合成和压缩的重要参数。

三、191206 QUESTION

1.AMR下的FBC？

对于AMR 的每个子帧，其固定码本占有的比特数为3×10+5=35比特：

对于每一子帧，AMR有5个脉轨，每个脉轨有2个脉冲位（有10个脉冲）。每两个相同脉轨下的脉冲位共享8个候选脉冲位，每个脉冲需要3个比特表示。
1个比特来表示示同一脉轨下的两个脉冲符号：第一个脉冲位总是与该符号表示的正负符号相同，而第二个脉冲位的符号取决于第一个脉冲位的位置及其符号，如果第二个脉冲位的位置大于第一个脉冲位，那么两个脉冲位同号，否则异号。

基于AMR固定码本的信息隐藏方法：通过限制每个脉轨最后一个脉冲的搜索范围来实现隐秘信息的编码和嵌入，并在解码端通过多个脉冲的脉冲位置联合计算出语音携带的秘密信息。
基于AMR固定码本的隐写分析方法：熵值检测；A基于同一脉轨下多个脉冲的马尔科夫转移矩阵作为特征的检测方法；B基于同一脉轨下的多个脉冲出现同一脉冲位的概率在隐写前后有很大的差别作为特征的检测方法。

2.AMR下的LPC？

在 AMR-NB 12.2 kb/s编码模式中，寻找这组预测系数参数的过程称为线性预测分析，利用 10 阶线性预测LP作短时分析。对每一帧分别分析两次得到两组线性预测参数。
LPC 在编码之前需要被转化为线谱频率LSF参数，再转换为线谱对LSP参数并在 LSP域进行矢量量化得到量化索引。
LPC 参数量化过程：
以 AMR-NB 12.2 kb/s 编码模式为例，通过线性预测分析得到的两组线谱对参数会通过分裂矩阵量化法SMQ进行量化。
首先将 10 维的 LSF 特征矢量按照一定的规则进行分裂得到若干个维度较小的矢量，再然后分别对这些小矢量进行量化：
（1）将线谱对 LSP 参数用频率域参数，即 LSF 表示.
（2）求出当前帧去掉均值之后的 LSF 矢量
（3）用一阶滑动平均（Moving Average，MA）预测法求出当前帧的 LSF预测残差矢量
（4）将通过（4.3）得到的 LSF 残差矢量(1)r(n) 和(2)r(n) 组成的矩阵按照一定的规则进行分裂
（5）矢量量化

3.G.729a下的FCB？

激励信号由自适应码本和固定码本共同决定，固定码本索引是在代数码本结构的基础上采用交错单脉冲排列ISPP设计的代数码本结构。在此码本索引中，每一个码矢含有4个非零脉冲，每个脉冲位置依次由表 4.1 中的 m0, m1, m2, m3 决定。一个子帧的脉冲位置参数编码后形成13比特的固定码本索引，每帧共有2个子帧，故一帧有26比特可用于嵌入秘密信息，在隐写时能提供325字节/秒的隐写速率。

4.AMR下的ACB

AMR-ACB搜索原理：
AMR编解码器，根据均方误差最小搜索准则，利用开环基音分析（每帧执行两次获得两个估计值，为闭环基音分析划定搜索范围，避免大计算量）和闭环基音分析（在两个估计值的区间内确定每个子帧的最佳的整数基音延迟和基音增益）来实现对基音的搜索。
不同子帧的基音延迟搜索范围不一样,其中第一子帧和第三子帧的搜索范围可表示为,通过在前一子帧的基音延迟确定的搜索范围执行闭环基音分析来确定第二和第四子帧的基音延迟,搜索范围可表示为。

p0i是第i帧中第一(或三)子帧的整数基音延迟，T是对应的估计值，p1i是第i帧中第二(或四)子帧的整数基音延迟。
隐写方法：
PLAN A:修改第一、第三子帧的整数基因延迟的搜索规则来嵌入信息。

PLANB:仅对第二、第四子帧基因延迟做修改。
，p1i和p3i为第二、第四子帧的基因延迟，m3为带嵌入的秘密信息比特。
隐写分析思想：隐写会改变样本的基因延迟序列的平稳性
隐写分析方法：
PLAN A:二阶差分的隐写分析方法，提取基因延迟的二阶差分马尔科夫转移矩阵MSDPD作为检测特征。

四、特征构造方法？（差分）直方图、（差分，平均）马尔科夫

1.AMR下FCB的脉冲对分布特征

AMR中含有5个脉轨(脉冲对)，每个脉轨共享8个候选脉冲，36个脉冲值对分布，共有36×5=180个脉冲值对分布作为备选特征。
PLAN A:从一个脉轨上的两个脉冲在编码中的关系出发，构建第一个脉冲到第二个脉冲的马尔科夫转移矩阵。（脉冲对序列马尔科夫矩阵）
PLAN B:提取两个脉冲间的联合概率矩阵并选取对角线上的元素作为检测特征。（脉轨间联合概率分布）
PLAN C:脉冲对直方图分布
Q:为何可用马尔科夫转移矩阵？
A:脉冲it+5是在脉冲的it的基础上进行搜索的，和脉冲it的脉冲位有着较大的关系。再加上在信息隐藏的过程中，脉冲it+5的搜索范围是由已确定的脉冲it和秘密信息决定的，秘密信息的随机性必然会破坏脉冲it+5和脉冲it间的相关关系。因此通过马尔科夫转移矩阵或者联合概率矩阵量化这两个脉冲间的关系在信息隐藏前后必然会发生一些变化。
BUT1:在AMR中，1比特表示符号位，it和i+5可能位置交换。检测时在解码端获取it和it+5来计算马尔科夫转移矩阵或联合概率分布并非能获得真实的脉冲分布。
SO:在编码完成后截取网络语音流，再利用解码器获得修改后的脉冲分布，而为了获得同一脉轨下两个脉冲间的相关关系，利用脉冲对直方图分布作为检测特征（不考虑两个脉冲间的先后关系，而是提取两个脉冲出现某个值对时的概率分布），AMR编码中对脉冲先后位置的修改并不对其产生影响。
脉冲对短时自相关特征：语音是一种在短时间内连续性和相关性较大的载体，当前子帧所记录的信号与上一子帧往往具有加大的关系。
BUT2:虽然难以获得真实的脉冲序列，但不会因为AMR编码中的脉冲交换而改变脉冲对序列。选用脉冲对来提取该类特征。
语音有N个子帧，子帧序列S={s1,s2...sN},对任意子帧si,提取其在脉轨t上的脉冲值对 $m$ i,t $m$ i,t+5，称 $pa$ i,t。~~(1子帧多少脉冲对？)~~
当前子帧与上一子帧具有较大的相关关系，将脉轨t上的值对序列 $pa$ t={ $pa$ 1,t, $pa$ 2,t,…, $pa$ N,t}视为马尔科夫序列。脉轨t上，值对(a, b)出现在(c, d)之后的条件概率
马尔科夫转移矩阵Mt:，每个脉轨均有36 种脉冲值对，矩阵为36×36=1296 维，
而5个脉轨就可获得5×1296=6480维特征。5.2各脉轨在该矩阵上的表现类似，用各脉轨间的平均马尔科夫转移矩阵作备选特征：

信息隐藏行为在一定程度上打乱了脉冲值对的分布，从而影响到相邻子帧间的脉冲值对转移关系，秘密信息的随机性明显影响了矩阵中的元素，使其也呈现一定程度上的随机性，表现得比普通语音的矩阵更为平坦。
BUT3:每次编码器在进行脉冲搜索时总是以脉冲对的形式对最优脉冲进行搜索，由于i0和i1每次选择的脉轨均不相同，且每轮搜索均对搜索的脉轨进行循环偏移，因此，每次搜索时均是基于两个不同的脉轨进行搜索。脉轨间存在统计关系。在信息隐藏过程中，各脉轨的脉冲值对受到限制搜索空间的影响，呈现出一定的随机性，而这种随机性也一定会影响不同脉轨间脉冲值对之间的关系。为了量化不同脉轨间的关系，可以使用不同脉轨间脉冲值对的联合概率分布作为量化指标。
脉轨x上的脉冲值对(χ, γ)和脉轨y上值对(α, β)同时出现的概率为P。脉轨x 和脉轨y 的脉冲值对联合概率分布矩阵Jx,y。

在AMR 中共有5 个脉轨，每两个脉轨可构建一个联合概率分布矩阵，因此总共可获得10 个相似的矩阵。与前面的情况一样，为了降低计算量，这10 个矩阵同样被均一化以降低该类特征的维度。

普通语音和载密语音上提取的平均联合概率分布的差异并不如前两种特征来的明显，有许多元素在信息嵌入前后变化不大，因此，该特征非常需要进行特征筛选以滤除无用的矩阵元素。——>Adaboost

2.AMR下ACB的基因延迟特征

提取基因延迟的二阶差分马尔科夫转移概率矩阵MSDPD作检测特征，写作M(x,y)。

对基因延迟的二阶差分马尔科夫转移概率矩阵进行校准，得到校准后的C-MSDPD作检测特征。
，定二阶差分的取值范围[-6,6]，维度169。
对降维+表征能力（基因延迟值的改变not enough+隐写方法的奇偶特征）进行改进。
降维：[-6,6]是MSDPD的最佳取值区间，not C-MSDPD，其实[-1,1]才是，设为IC-MSDPD，维度为9。
奇偶特征：

普通语音的马尔科夫转移矩阵由于语音信号的相关性，表现出一定的形状特性，而信息隐藏破坏了原先的相关特性，使得马尔科夫转移矩阵各值变得随机，表现为较为平坦的矩阵。
将待检参量的序列 S=｛s1,s2,s3,……,sL｝视为马尔科夫链。将待检参量差值的序列 S’={s’1,s’2,s’3,……,s’L}视为马尔科夫链。

五、机器学习相关的特征检测方法？

特征降维：
1.PCA组成成分分析。PCA算法虽然能够达到很好的降维效果，但是作为一种无监督的降维方法，经该方法降维后的特征在检测上将无法达到预期的效果，而且PCA要求待检样本在提取特征后还需要进行一次矩阵乘法运算，这一步需要耗费较大的运算量，对于网络语音流的实时检测不利。可用AdaBoost。
2.可利用AdaBoost算法进行特征筛选之后，利用SVM(LibSVM)对筛选后的特征集进行训练。
AdaBoost算法通过权重组合大量的弱分类器形成较强的分类器进行分类，也可以进行特征筛选1-2。