3-2 audio processing--code

幻灯片2:压缩编码技术的分类,无损压缩(霍夫曼编码、算术编码、行程编码)和有损压缩(波形编码、参数编码、感知编码、混合编码)

幻灯片7:信息量I(x)

信息是指一个具体事件发生所带来的信息,衡量信息大小就看这个信息消除不确定性的程度

信息量指从N个相等事件中选出1个事件所需要提问“是或否”的最少次数,即一个事件需要查询的信息多少,单位是比特

信息是用不确定的量度定义的。 一个N个等概率事件的集合,每个事件的发生概率是1/N, 则每个事件信息量等于log2(N)

【例】信息量计算:假设X={a,b,c}是由3个事件构成的集合,p(a)=0.5,p(b)=0.25,p(c)=0.25分别是事件a, b和c出现的概率,这些事件的信息量分别为  I(a)=log2(1/0.50)=1 bit  ,I(b)=log2(1/0.25)=2 bit ,I(c)=log2(1/0.25)=2 bit

幻灯片10:熵H(x)--等概率事件的熵最大

香农(Shannon)的理论,在有限的互斥和联合穷举事件的集合中,熵为事件的信息量的平均值,也称事件的平均信息量(mean information content),即信息量的期望,数学表示为

【例】熵的计算:假设X={a,b,c}是由3个事件构成的集合,p(a)=0.5,p(b)=0.25,p(c)=0.25分别是事件a, b和c出现的概率,这个集合的熵为: 那么a,b,c的熵分别是1, 2, 2. H(X)=p(a)I(a)+p(b)I(b)+p(c)I(c)         =0.5*1+0.25*2+0.25*2=1.5(bit)

幻灯片14:决策量H0(x)

在有限数目的互斥事件集合中,决策量是事件数的对数值,在数学上表示为 :H0=log(n), 其中,n是事件数。单位:bit : 用于以2为底的对数 Nat (奈特);用于以e为底的对数

幻灯片15:数据的冗余量R

R=H0-H

【例】冗余量的计算:假设X={a,b,c}是由3个事件构成的集合,p(a)=0.5,p(b)=0.25,p(b)=0.25分别是事件a, b和c出现的概率,这个数据集的冗余为: R=H0-H=log2(3)-1.5=1.58-1.5=0.08

平均码长N*:

        1)如果N*>>H(x) : 有冗余,不是最佳

        2)如果N*<H(x) : 不可能

        3)如果N*≈H(x):最佳编码 (N*稍微大于H(x)) 熵值是平均码长N*的下限

幻灯片19:香农-范诺编码举例(从上到下)

【例】有一段40个采样点组成的音频段,量化为5个等级,分别用符号A,B,C,D和E表示。已知40个采样点每种量化等级出现的概率。 (1) 计算该音频可能获得的压缩比的理论值 (2) 对5个等级符号进行编码 (3) 计算该音频可能获得的压缩比的实际值
(1)压缩比理论值的计算

(2)符号编码--分为两个部分,近似相同概率

(3)实际压缩比

幻灯片24:霍夫曼编码(从下到上)

【例】现有一个由5个不同符号组成的30个符号的字符串:BABACACADADABBCBABEBEDDABEEEBB 求:

(1) 该字符串的霍夫曼码--最小捏一起

(2) 该字符串的熵

概率:

(3) 该字符串的平均码长

  平均码长        =(2×8+2×10+3×3+3×4+2×5)/30       =2.233 位/符号

(4) 编码前后的压缩比

编码前:5个符号需3位,30个字符,需要90位

编码后:共67位          

压缩比: 90/67=1.34:1

(5) 编码效率=熵(H)/平均码长(L)

幻灯片36:算术编码

【例】假设信源符号为{00, 01, 10, 11},它们的概率分别为{ 0.1, 0.4, 0.2, 0.3 },对二进制消息序列10 00 11 00 10 11 01 … 进行算术编码

(1)初始化

【例】

-------之后的应该就没什么用了--------

幻灯片50 3.2.2 数字化音频的获取

压缩编码

  • 用某种方法减低数字化信息的编码率,实现数据压缩。

幻灯片52 声音信号中的时域“冗余”

  • 语音信号的幅度非均匀分布,存在大量间隙和样本间相关性。

  • 利用差分编码技术进行有效的数据压缩。

  • 周期之间的相关性、静音间隔、长时自相关性等也可以用于压缩编码。

幻灯片54 声音信号中的频域“冗余”

  • 频谱特性导致非均匀长时功率密度谱,以及短时功率谱密度的特点。

  • 共振峰频率和高次谐波结构对应频率的增加而递减,也是声音信号中的频域冗余。

人耳的听觉特性

  • 存在与听觉无关的“不相关”部分,不需要传送,实现数据压缩。

  • 人耳听觉的心理声学特性包括声音主观感受(响度、音调、音色)和声音客观特性(振幅、频率、频谱特性)。

幻灯片57 掩蔽效应

  • 较弱声音被较强声音影响的现象,表现为频域掩蔽和时域掩蔽。

  • 掩蔽阈的宽度随频率变化,低频音容易对高频音产生掩蔽。

编码方法

  • 无损压缩:包括各种熵编码方法。霍夫曼编码、算术编码、行程编码

  • 有损压缩:涵盖波形编码、参数编码、混合编码等。

行程长度编码(RLE)是一种无损压缩编码方式,用于将连续重复的字符进行编码。

【例】行程长度编码:要编码的字符串为“aabbbcddddd”, 编码后为“2a3b1c5d” 压缩前有11个字符,压缩后有8个字符,压缩比为:11:8. 显然,连续重复的字符越多,行程编码的压缩率越大,压缩后的数据量越小。
  • 波形编码、参数编码和混合编码(p66)

具体编码算法

  • 波形编码包括多种编码方法,如PCM、DM、APCM、DPCM、ADPCM等,具有适应性强、算法复杂度低、语音质量好等特点。

  • 参数编码基于发音机制的模型,对语音特征参数进行编码,输出的码率约为2~4.8 kbps。

  • 混合编码结合了波形编码和参数编码的优点,适用于语音质量要求高的移动通信系统,输出数据速率为4.0~16 kbps。

子带编码

  • 使用一组带通滤波器将输入音频信号的频带分成若干个连续的频段,每个频段称为子带。

  • 在人的听觉不敏感的部位采用较粗糙的量化,在敏感部位采用较细的量化,以获得更好的主观听觉效果。

  • 各子带的量化噪声都束缚在本子带内,可以避免能量较小的频带内的信号被其它频段中的量化噪声所掩盖。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值