一、声音的基本概念
声音是通过一定介质传播的连续的波。
图1 声波
重要指标:
- 振幅:音量的大小
- 周期:重复出现的时间间隔
- 频率:指信号每秒钟变化的次数
声音按频率分类:
图2 声音的频率(语音信号频率范围:300Hz-3kHz)
声音的传播携带了信息,它是人类传播信息的一种主要媒体。 声音的三种类型:
- 波形声音:包含了所有声音形式
- 语音:不仅是波形声音,而且还有丰富的语言内涵(抽象→提取特征→意义理解)
- 音乐:与语音相比,形式更规范。音乐是符号化的声音。
二、声音的数字化
1.声音信号的类型
- 模拟信号(自然界、物理)
- 数字信号(计算机)
2.声音数字化过程
图3 声音数字化过程
3.声音数字化过程示意图
图4 声音数字化过程示意图
4.声音数字化三要素
采样频率 | 量化位数 | 声道数 |
每秒钟抽取声波幅度样本的次数 | 每个采样点用多少二进制位表示数据范围 | 使用声音通道的个数 |
采样频率越高 声音质量越好 数据量也越大 | 量化位数越多 音质越好 数据量也越大 | 立体声比单声道的表现力丰富,但数据量翻倍 |
11.025kHz 22.05 kHz 44.1 kHz | 8位=256 16位=65536 | 单声道 立体声 |
5.声音数字化的数据量
音频数据量=采样频率×量化位数×声道数/8(字节/秒) 采样频率 (kHz) | 量化位数 (bit) | 数据量(KB/s) | |
单声道 | 立体声 | ||
11.025 | 8 | 10.77 | 21.35 |
16 | 21.53 | 43.07 | |
22.05 | 8 | 21.53 | 43.07 |
16 | 43.07 | 86.13 | |
44.1 | 8 | 43.07 | 86.13 |
16 | 86.13 | 172.27 |
三、音频的文件格式
1.WAV文件
WAV是Microsoft/IBM共同开发的PC波形文件。因未经压缩,文件数据量很大。特点:声音层次丰富,还原音质好
2.MP3文件
MP3(MPEG Audio layer3)是一种按MPEG标准的音频压缩技术制作的音频文件。特点:高压缩比(11:1),优美音质
3.WMA文件
WMA(Windows Media Audio)是Windows Media格式中的一个子集(音频格式)。特点:压缩到MP3一半
4.MIDI文件
MIDI(乐器数字接口)是由一组声音或乐器符号的集合。特点:数据量很小,缺乏重现自然音
四、数字音频压缩标准
1.音频压缩方法概述
图5
压缩编码技术是指用某种方法使数字化信息的编码率降低的技术音频信号能压缩的基本依据:
①声音信号中存在大量的冗余度;②人的听觉具有强音能抑制同时存在的弱音现象。
音频信号压缩编码的分类:
①无损压缩(熵编码)霍夫曼编码、算术编码、行程编码
②有损压缩
波形编码--PCM、DPCM、ADPCM 、子带编码、矢量量化
参数编码--LPC
混合编码--MPLPC、CELP
2.音频压缩技术标准
分类 | 标准 | 说明 |
电话语 音质量 | G.711 | 采样8kHz,量化8bit,码率64kbps |
G.721 | 采用ADPCM编码,码率32kbps | |
G.723 | 采用ADPCM有损压缩,码率24kbps | |
G.728 | 采用LD-CELP压缩技术,码率16kbps | |
调幅广 播质量 | G.722 | 采样16kHz,量化14bit,码率224(64)kbps |
高保真 立体声 | MPEG 音频 | 采样44.1kHz,量化16bit,码率705kbps (MPEG三个压缩层次,384-64kbps) |
五、声卡
1.声卡的主要功能
声卡是负责录音、播音和声音合成的一种多媒体板卡。其功能包括:①录制、编辑和回放数字音频文件
②控制和混合各声源的音量
③记录和回放时进行压缩和解压缩
④语音合成技术(朗读文本)
⑤具有MIDI接口(乐器数字接口)
2.芯片类型
- CODEC芯片(依赖CPU,价格便宜)
- 数字信号处理器DSP(不依赖CPU)