为什么使用16K采样率的对讲效果要比8K的好
前一段时间一直没有想明白这么一个逻辑关系,既然语音信号的频谱范围是300Hz~3.4KHz,那么使用8K采样率与使用16K采样率的对讲效果应该是差不多的才对,因为二者都全部覆盖了语音的频谱范围。那为什么16K采样率的对讲效果会更好呢?这里的讨论仅仅指语音信号,不包含音乐等其他音频信号。也不包含8K上采样成16K的情况,因为这种情景并无频谱信息上的增加,只是数据量达到了16K采样率而已。
现在觉着可以从时域与频域两方面去理解:
(1)从时域的角度来看比较好理解,16K采样率的采样间隔更短,语音信号的时域信息更加丰富,更接近实际的语音信号,所以效果更好。
(2)频域上,如果是8K采样率的话,在AD之前必须要做抗混叠滤波,即将4K及4K以上的频谱全部滤除。但是这是理想的低通滤波情况,真实的滤波器还存在一定的过渡带,具体的过渡带带宽有多少则不好确定,但是应该从3.4KHz(或者低于3.4KHz)左右便要开始衰减,但是2-3KHz的频段却是语音辨识度最重要的频段,直接影响了语音的音色。而如果采用16K采样率的话就不会存在这个问题,完全可以从远离语音上限频谱(3.4KHz)的7KHz等频段开始做衰减,即使这样也完全可以满足过渡带的带宽需求。与8K采样率相比,16K采样得到的语音信号的频谱肯定是更加丰富,甚至可以对2-3KHz的语音频段做增强。
综上,现在完全可以从理论上理解为什么16K采样率的对讲效果要比8K的好。