版权声明:转载时请以超链接形式标明文章原始出处和作者信息及本声明
http://bordern.blogbus.com/logs/1083961.html
专业点讲,那是频谱分析视图,如果针对语音数据的话,叫语谱图。语谱图的横坐标是时间,纵坐标是频率,坐标点值为语音数据能量。由于是采用二维平面表达三维信息,所以能量值的大小是通过颜色来表示的,颜色深,表示该点的语音能量越强。
可是为什么采用二维平面来表示三维信息呢?这个是有历史原因的。在数字技术发展以前,人们可视化研究语音数据的方法是把数据通过频率滤波器,然后各个频率的数据驱动相应的类似针式打印的设备按频率高低顺序记录在一卷纸上,信号的强弱由记录在纸上的灰度来表示。记录纸按照一定的速度旋转,即相当于在不同的时间里记录下语音数据。关于语谱图详细资料,大家可以查看其他资料。
那么我们从语谱图上到底可以看出什么信息呢?我们可以观察语音不同频段的信号强度随时间的变化情况。由于音乐信号本身频率丰富,不太容易看出规律,我们可以观察一下纯粹的语音数据的语谱图(附图)。从图中可以看到明显的一条条横方向的条纹,我们称为“声纹”,有很多应用。条纹的地方实际是颜色深的点聚集的地方,随时间延续,就延长成条纹,也就是表示语音中频率值为该点横坐标值的能量较强,在整个语音中所占比重大,那么相应影响人感知的效果要强烈得多。而一般语音中数据是周期性的,所以,能量强点的频率分布是频率周期的,即存在300Hz强点,则一般在n*300Hz点也会出现强点,所以我们看到的语谱图都是条纹状的。
尽管客观人发声器官的音域是有限度的,即一般人发声最高频率为4000Hz,乐器的音域要比人宽很多,打击乐器的上限可以到20KHz。但是,由于我们数字分析频率时,采用的是算法实现的,一般是FFT,所以其结果是由采样率决定的,即尽管是上限为4000Hz的语音数据,如果采用16Khz的采样率来分析,则仍然可以在4000Hz以上的频段发现有数据分布,则可以认为是算法误差,非客观事实。
而楼主所说mp3的18Khz以上部分色彩被砍掉是因为该Mp3采样率一般为44.1Khz,根据采样定律,它能反映的最大频率即为22Khz。而Mp3是根据人听觉心理模型对音乐数据进行了频率限定,即把音域限定在18Khz(小于22Khz)以下。那么既然Mp3实际反应的频率解析度大大低于wav,为什么人耳听不出差别呢?实际人耳能听到的最高频率为16Khz左右,所以如果限定音域时没有任何信号扭曲,人耳是分辨不出缺少了18Khz以上成分的声音的差别的。一个设计完美的音频压缩算法可以使得“CD的效果好”纯粹是心理安慰,当然任何算法都不完美^_^
但是,有些金耳朵为什么能分辨出一些高品质音乐在高频段(超出人耳感知频率)的差别呢?(倒,好像在否定前面的论点了-_-b)这是因为虽然人耳无法感知一些临近阈值的声音,比如16Khz~20Khz,但是,声音可以通过头骨、颅骨传递给大脑的听觉区,不同人的能力不同,所以16Khz~20Khz的分量还是有效果的,往往给人虚幻、空灵的感觉。大家可以去听听欧洲“小猎犬”火星探测器上播放的音乐,尽管它已经失败了。所以以后大家说聋子坏话的时候,声音不可以太大哦^_^