[数据压缩作业]实验六

本文详细探讨了MPEG音频编码的原理,包括感知音频编码设计思想,如多相滤波器组、心理声学模型和码率分配。实验结果展示了程序设计的整体框架,解释了音频采样率、目标码率的处理,以及数据帧的输出过程。
摘要由CSDN通过智能技术生成

目录

一、实验原理

1. 理解感知音频感知编码的设计思想

2.理解感知音频编码的设计思想

两条线

时-频分析的矛盾

3.理解心理声学模型的实现过程

临界频带的概念

心理声学模型1

4.理解码率分配的实现思路

 二、实验结果

理解程序设计的整体框架 

 输出音频的采样率和目标码率

 源代码已经有将音频采样率和目标码率输出

 数据帧输出


一、实验原理

1. 理解感知音频感知编码的设计思想

MPEG-1,MPEG-2音频编码器框架

多相滤波器组:输入PCM码流经多相滤波器组变换为32个子带的频域信号

如果输入的采样频率为48KHz,那么子带频率的宽度为48/(2\times32)=0.75KHz

心理声学模型:计算信号中不可听觉感知的部分(信号掩蔽比SMR)

比特分配器:根据心理声学模型的计算结果,为每个子带信号分配比特数

装帧:产生MPEG-1兼容的比特流 

​​​​​​​

2.理解感知音频编码的设计思想

两条线

上面一条线:

输入PCM码流经多相滤波器组变换为32个子带的频域信号,每32个样点做一次子带分解,一共做12次,每个子带中都有12个样点,MPEG-1 每个子带12个样点,共12\times36=384个样点,MEPG-2再连续做3次,每个自带12\times3=36个样本,共12\times3\times32=1152个样点。​​​​​​​​​​​​​​然后进行量化

下面一条线:

PCM信号进行1024点FFT,根据变换结果和比例因子进行心理声学模型的构建,由心理声学模型计算以频率为自变量的噪声掩蔽阈值,接着再根据各子带的掩蔽阈值和码率,进行比特分配

时-频分析的矛盾

窗的长度决定频谱图的时间分辨率和频率分辨率,窗长越长,截取的信号越长,傅里叶变换后频率分辨率越高,时间分辨率越低

时域:32个子带时间窗口小,保证时间轴上信号的瞬时特性;频域:分辨率越细越好

MPEG-1音频编码上面一条线通过子带分析滤波器组使信号具有高的时间分辨率,确保在短暂冲击信号情况下,编码的声音信号具有足够高的质量。下面一条线通过FFT运算具有高的频率分辨率,从功率谱密度推出掩蔽阈值。

3.理解心理声学模型的实现过程

临界频带的概念

指当某个纯音被以它为中心频率,且具有一定带宽的连续噪声所掩蔽时,如果该纯音刚好被听到时的功率等于这一频带内的噪声功率,这个带宽为临界频带宽度

MEPG-1定义了两种心理声学模型:

心理声学模型1

1、将样本变换到频域
32个等分的子带信号并不能精确地反映人耳的听觉特性。引入FFT补偿频率分辨率不足的问题。
2、确定子带声压级别


3、考虑安静时阈值,即绝对阈值
在标准中有根据输入PCM信号的采样率编制的“频率、临界频带率和绝对阈值”表。
4、将音频信号分解成“乐音(tones)” 和“非乐音/噪声”部分
两种信号的掩蔽能力不同。

根据音频频谱的局部功率最大值确定乐音成分局部峰值为乐音,然后将本临界频带内的剩余频谱合在一起,组成一个

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值