一.基础背景知识
听觉阈值
阈值掩蔽曲线
心理声学模型分析
1.将样本变换到频域
1.1 多项滤波器把输入信号分成32个等分的子带,但是这样做并不能精确地反映人耳的听觉特性。计算掩蔽阈值也需要每个频率的幅值,所以引入FFT补偿频率分辨率不足的问题
1.2 Layer I:每帧384个样本点,2^8=256,2^9=512,选择512个点
Layer II 和Layer III:每帧1152个样本点,每帧两次计算,模型1选择两个信号掩蔽比(SMR)中较小的一个
2.确定声压级别
3.考虑安静时阈值
也即绝对阈值。在标准中有根据输入PCM信号的采样率编制的“频率、临界频带率和绝对阈值”表。此表为多位科学家经多次心理声学实验所得。
4、将音频信号分解成 “乐音(Polyphase Filter Bank)tones)” 和“非乐音/噪声”部分:因为两种信号的掩蔽能力不同
临界频带
当某个纯音被以它为中心频率、且具有一定带宽的连续噪声所掩蔽时,如果该纯音刚好被听到时的功率等于这一频带内的噪声功率,这个带宽为临界频带宽度,通常认为从20Hz到16kHz有25个临界频带,单位为bark,1 Bark = 一个临界频带的宽度
Tip:根据音频频谱的局部功率最大值确定乐音成分,峰值为乐音,然后将本临界频带内的剩余频谱合在