基于统计模型及SVM的低速率语音编码QIM隐写检测

一、基本思想

提取特征:
1.音素P(音标)进行LPC分析,得到LPC预测系数。
2.矢量量化,获得量化矢量索引I。“P—>I”:每个P有一个I对应,I为P的量化特征索引。

语音中的音素分布特性:一段语音中的各音素的出现是不均衡的,其次不同音素的出现存在相关性。
设某段语音对应的音素序列为S=P1…Pn-1Pn ,根据P—>I,与之对应的量化特征索引序列:S*=I1…In-1In。
[8]信息隐藏方法是在获得LPC系数的量化索引I 时进行QIM隐写的.进行QIM隐写势必使序列S*发生的某些量化索引值发生变化,例如对于音素 Pk,设其原量化索引为Im,进行QIM隐写后可能变为Im+1,S*中索引的改变将导致S中音素Pk相应的改变,如变为Pk+1,音素的改变将使S中的音素分布特性发生变化.因此,如能够有效量化S中音素的分布特性,则通过比较QIM隐写前后该特征的变化即可实现隐写检测.

二、音素分布特性的量化统计模型

语言L的任意一段语音都可由下文方法获得其对应的音素序列.
1.音素P用三元组(p,s,t)表示,其中p为音标,s为音标p的发音是具有一定时长的语音小片段,t为s的时长.音素P为语音的基本组成单位.
2.语言L,包含有限音素,B={P1,P2,…,Pn-1,Pn}。
3.语言L的一段语音片段S可以根据B中的音素分解为多个按时序排列的语音分片S=f1f2...fm-1fm。分片fk实质上是音素Pt的发音,即fk=st。
4.语音片段S表示为音素序列:S=PkPl...PxPy(k,l,x,y∈[1,n])

若音素P为单词,语音片段S为文档。用文档量化表示模型:文档向量空间模型,使用PSVM音素向量空间模型作为音素序列的量化表示模型。

音素向量空间量化表示模型1:
定义1: 虚拟语言L的音素集合B={P1,…,Pn},称Pi∈B为音素词汇,称B为语言L的音素词典,属于虚拟语言L的语音片段所包含的音素都在B中.
定义2:语音分帧:虚拟语言L的一段语音S,通过查找音素词典,可切分为按时序排列的N个音素。
定义3:语音片段量化表示方法即音素向量空间量化表示模型:设语音片段S分帧后所得的音素序列为S=Pk …Px ;根据音素词典B={P1 ,...,Pn}可构造n 维向量V={W1,…,Wn}对音素序列S进行量化表示,称Wi为音素词汇Pi的权重(它是与Pi在音素序列S中的分布相关的变量,其取值依据预先设定的计算规则求取),称向量V对应的n维空间为音素向量空间,音素序列S可用该空间中的一个点表示。
公式:音素Pi权重Wi=Count(Pi)/Sum(S),其中Count(Pi)为Pi在音素序列S中出现的次数,Sum为S包含的音素词汇总数。

相关性特性的量化统计模型2:音素序列可视为声道(音素) 状态转移一阶马尔可夫链。
原理:发音过程实际上就是不断变换声道形态的过程,可将该过程视为离散时间随机过程{x(i), i>0},x(i)表示音素发音时的声道形态,由于不同的声道形态对应不同的音素,用音素来代表声道形态即取表示第i个时刻声道正在发声音素Pk的音。
声道状态转移序列S=
一般认为某个音素的出现仅与其前一个音素存在较大关联,即存在关系:
随机状态序列S=为一阶马尔可夫链。声道状态集合
声道状态转移概率:,即
表示了音素序列中各音素出现的相关性,可作为音素相关性的量化统计特征。
以ai,j作为元素可得到n×n维的音素状态转移矩阵M。

全面量化音素分布特性步骤:
音素分布相关性的量化表示(音素状态转移矩阵M),降为n维得到,
+音素分布不均衡性的量化表示(即音素向量V)
——融合——>融合向量H=
为音素分布特征向量PDFV。

三、分帧方法、音素集合确定

G.729以10ms为单位对语音进行分帧并对每帧计算一次LPC预测系数(即估计一次声道发音参数),这意味着G.729认为在10ms的短时内声道的形态是稳定的。
假设不同的声道形态对应不同音素发音,那么可以认为G.729中每帧对应一个音素或者是一个音素的一部分。
本文将时长不超 过10ms的音素称为α类,反之为β类。α类音素其时长设为G.729的帧长l,β类音素设其时长为n×l(n>1)即β类音素包含多个G.729帧。β类音素发音时的信号波形一般具有周期性特征,如图1的o有4个T,一个周期的信号已可反映声道特征,其对其声道参数进行了多次重复估计,so分成n个帧分别进行LPC分析。
本文认为每个G.729帧可近似地跟一个音素对应,β类音素可能连续几个帧都对应相同的音素。
对量化特征索引I进行降维:一级矢量与所有的LPC系数的量化有关其重要性超过了,QIM隐写是在3个分裂矢量量化时分别进行的,近似取I=作为G.729的音素集合B中元素P的量化索引特征,
对于G.729其音素向量V与音素状态转移向量V*都是128维向量,融合向量H为256维向量。
对于G.723.1,基于其压缩语音流的原始帧结构进行分帧并近似地取其第1个分裂矢量作为音素的量化特征索引,此时音素集合,音素向量V与音素状态转移向量V*都是256维向量,融合向量H为512维向量。
确定音素集合及分帧方法后,对于给定的压缩语音片段可方便地计算其融合特征向量H。

图3给出了QIM隐写对融合特征向量扰动情况的分析结果。

由图3(a)可知隐写前后融合特征向量的变化幅度较大,为了量化分析隐写融合特征向量的扰动程度,本文引入向量变化率VVR对向量的改变进行衡量。
隐写前后计算所得的融合特征向量为H1,H2,VVR定义为H1中取值发生变化的子向量的比例:
,其中N为融合特征向量维数,。ai和bi分别为H1和H2中第i维子向量的取值。
将VVR的值域分为10个区间:di=[i×0.1,(i+1)×0.1],其中i取值为0~9;
本文对 实验部分所涉及的2674个不同语音片段使用G.729及G.723.1分别计算了其VVR值.
图3(b)统计了计算所得VVR值属于区间di的语音文件数量。从图3(b)可以看出对于G.729和G.723.1,文件对应的向量变化率值都超过0.5,这意味着至少有一半以上的融合特征向量中的子向量在隐写前后的取值发生了改变;
对于G.729,所有文件的VVR均值为0.86, 对于G.723.1该值为0.68,因此可以认为本文所提取的特征对隐写是非常敏感的—隐写将导致该特征发生显著性变化,这对隐写检测非常有利。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

nooobme

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值