一.实验原理
mpeg的音频编码主要采用了心理声学模型
1. MPEG-I 心理声学模型
- 通过子带分析滤波器组使信号具有高的时间分辨率,确保在短暂冲击信号情况下,编码的声音信号具有足够高的质量。
- 又可以使信号通过FFT运算具有高的频率分辨率,因为掩蔽阈值是从功率谱密度推出来的。
- 在低频子带中,为了保护音调和共振峰的结构,就要求用较小的量化阶、较多的量化级数,即分配较多的位数来表示样本值。而话音中的摩擦音和类似噪声的声音,通常出现在高频子带中,对它分配较少的位数
2. MPEG-1音频编码器框架图
- 多相滤波器组(Polyphase Filter Bank):用来分割子带,将PCM样本变换到32个子带的频域信号
如果输入的采样频率为48kHz ,那么子带的频率宽度为48/ (2*32 )=0.75Hz - 心理声学模型(Psychoacoustic Model):计算信号中不可听觉感知的部分
计算噪声遮蔽效应 - 比特分配器(Bit Allocator):根据心理声学模型的计算结果,为每个子带信号分配比特数
- 装帧(Frame Creation):产生MPEG-I兼容的比特流
3. 临界频带(Critical Band)
临界频带是指当某个纯音被以它为中心频率、且具有一定带宽的连续噪声所掩蔽时,如果该纯音刚好被听到时的功率等于这一频带内的噪声功率,这个带宽为临界频带宽度。
掩蔽效应在一定频率范围内不随带宽增大而改变,直至超过某个频率值。通常认为从20Hz到16kHz有25个临界频带,单位为bark。
1 Bark = 一个临界频带的宽度
4. 比例因子的取值和编码
对各个子带每12个样点进行一次比例因子计算。先定出12个样点中绝对值的最大值。查比例因子表中比这个最大值的最小