1 音频参数:采样频率、声道、采样精度、比特率、编码方式
以Foobar2000音乐播放器界面(图1)为例说明,左下角视图为波形,右下为频谱,右上为音乐文件常规属性(此界面是为叙述方便而定义,不代表软件本身属性)。
音频分析中用到的一些基本概念
人耳听到的声音,无论多么复杂,都可在时域表示为一道模拟、连续的波形(图1左下所示)。所谓“复杂”实际上是多个声音信号波形叠加的结果,可经过分解得到若干不同频率的正弦波,因而其经过傅里叶变换在频域可以以频率为横轴、幅度为纵轴表示,不同频率上的不同幅度表明构成声音信号的频率分量的强弱(图1右下所示)。这种特点是音频分析的理论基础。
要想把模拟、连续的音乐信号储存为数字音频,须将此信号通过模/数转换,对波形曲线采样,以样本值的序列来表示声音信号。一般而言,采样时有以下几个需要考虑的参数:
(1)采样频率(图1右上第3行):表示每秒钟所取得的声音数据样本数,以Hz为单位。人声频率一般在300Hz—3.4kHz,人耳能听到的音乐频率一般在20Hz—20kHz。根据奈奎斯特采样定理,若要使信号无失真保留,采样频率须高于两倍信号带宽。采样频率越高,音质越好,但是数据量越大。
(2)声道(图1右上第4行):一般只分单声道和双声道,双声道即是立体声。双声道效果较好,但数据量是单声道的两倍。
(3)采样精度(图1右上第5行):表示每个数据样本所用的二进制位数,常用8-bit和16-bit。即每个样本的数值都是固定长度的整数,以便于存储,精度越大,量化误差越小,恢复出的音质越好,同样,数据量也越大。
(4)比特率(图1右上第6行):表示单位时间播放音频的比特数量,相当于数字带宽消耗量。它与采样频率、采样精度、编码方式、压缩方式有关,不是一个独立的参数,在同一编码、压缩方式下,若采样频率、精度确定,则比特率确定。但它可以直观反映每秒所使用的空间(如硬盘)大小,比特率越高,音质越好,数据量越大。
(5)编码方式(图1右上第7行):表示音频编码的方式,常见的如MP3、WMA、PCM(文件名后缀“.wav”)等。MP3、WMA为有损类编码,PCM为无损类编码,同等音质下后者占用空间较大。
(1)长期特征(一段乐曲):波形变化大,周期无规律;
(2)短期特征(一帧):波形变化小,周期有规律。
长期特征表明了各首不同乐曲之间的宏观差异,通过这种差异我们可以将音乐分为若干类;短期特征表明了一帧音乐的基本特征,通过这个特征我们可以将大段音乐文件分帧,用特征值来表示一帧音乐,从而减少进行后续处理时的数据量。
以Foobar2000音乐播放器界面(图1)为例说明,左下角视图为波形,右下为频谱,右上为音乐文件常规属性(此界面是为叙述方便而定义,不代表软件本身属性)。
音频分析中用到的一些基本概念
人耳听到的声音,无论多么复杂,都可在时域表示为一道模拟、连续的波形(图1左下所示)。所谓“复杂”实际上是多个声音信号波形叠加的结果,可经过分解得到若干不同频率的正弦波,因而其经过傅里叶变换在频域可以以频率为横轴、幅度为纵轴表示,不同频率上的不同幅度表明构成声音信号的频率分量的强弱(图1右下所示)。这种特点是音频分析的理论基础。
要想把模拟、连续的音乐信号储存为数字音频,须将此信号通过模/数转换,对波形曲线采样,以样本值的序列来表示声音信号。一般而言,采样时有以下几个需要考虑的参数:
(1)采样频率(图1右上第3行):表示每秒钟所取得的声音数据样本数,以Hz为单位。人声频率一般在300Hz—3.4kHz,人耳能听到的音乐频率一般在20Hz—20kHz。根据奈奎斯特采样定理,若要使信号无失真保留,采样频率须高于两倍信号带宽。采样频率越高,音质越好,但是数据量越大。
(2)声道(图1右上第4行):一般只分单声道和双声道,双声道即是立体声。双声道效果较好,但数据量是单声道的两倍。
(3)采样精度(图1右上第5行):表示每个数据样本所用的二进制位数,常用8-bit和16-bit。即每个样本的数值都是固定长度的整数,以便于存储,精度越大,量化误差越小,恢复出的音质越好,同样,数据量也越大。
(4)比特率(图1右上第6行):表示单位时间播放音频的比特数量,相当于数字带宽消耗量。它与采样频率、采样精度、编码方式、压缩方式有关,不是一个独立的参数,在同一编码、压缩方式下,若采样频率、精度确定,则比特率确定。但它可以直观反映每秒所使用的空间(如硬盘)大小,比特率越高,音质越好,数据量越大。
(5)编码方式(图1右上第7行):表示音频编码的方式,常见的如MP3、WMA、PCM(文件名后缀“.wav”)等。MP3、WMA为有损类编码,PCM为无损类编码,同等音质下后者占用空间较大。
现在假设某段乐曲有30秒,8-bit采样,频率为44100Hz,双声道,PCM编码,则样本总数为2646000个。
2 音乐特征:音量、音高、音色,帧长、帧重叠、帧距、帧率
如上所述,可通过绘制波形的方式研究音乐特征。从图2的波形上看,音乐具有如下特征:(1)长期特征(一段乐曲):波形变化大,周期无规律;
(2)短期特征(一帧):波形变化小,周期有规律。
长期特征表明了各首不同乐曲之间的宏观差异,通过这种差异我们可以将音乐分为若干类;短期特征表明了一帧音乐的基本特征,通过这个特征我们可以将大段音乐文件分帧,用特征值来表示一帧音乐,从而减少进行后续处理时的数据量。