第二部分 音频压缩编码
一.有损 ( lossy )/无损 ( lossless )/未压缩 ( uncompressed )音频格式
未压缩音频是一种没经过任何压缩的简单音频。未压缩音频通常用于影音文件的的 PCM或 WAV音轨。
无损压缩音频是对未压缩音频进行没有任何信息 /质量损失的压缩机制。无损压缩音频一般不使用于影音世界,但是存在的格式有无损 WMA或 Matroska里的 FLAC。
有损压缩音频尝试尽可能多得从原文件删除没有多大影响的数据,有目的地制成比原文件小多的但音质却基本一样。有损压缩音频普遍流行于影音文件,包括 AC3, DTS, AAC, MPEG-1/2/3, Vorbis, 和 Real Audio.
我们也来讨论下无损 /有损压缩过程。只要你转换成一种有损压缩音频格式(例如 wav 转 MP3),质量上有损失,那么它就是有损压缩。从有损压缩音频格式转换成另一有损压缩音频格式(例如 Mp3转 AAC)更槽糕,因为它不仅会引入原文件存在的损失,而且第 2次编码也会有损失。
二、语音 (Voice)编码和音频 (Audio)编码
语音编码主要是针对语音通信系统中的编码方案,应用在有线或无线通信中;音频编码是针对音乐的编码方案,主要用来更方便地实现对音乐文件进行网络传输和存储。两者的差别一方面是频带不同,另一方面是压缩要求不一样,音乐要求具有高保真度和立体感等要求。 音频编码最常见的是 MPEG的音频编码。
语音的编码技术通常分为三类:波形编码 、参量编码 和混合编码 。其中,波形编码和参量编码是两种基本类型。
波形编码 是将时间域信号直接变换为数字代码,力图使重建语音波形保持原语音信号的波形形状。波形编码的基本原理是在时间轴上对模拟语音按一定的速率抽样,然后将幅度样本分层量化,并用代码表示。解码是其反过程,将收到的数字序列经过解码和滤波恢复成模拟信号。它具有适应能力强、语音质量好等优点,但所用的编码速率高,在对信号带宽要求不太严格的通信中得到应用,而对频率资源相对紧张的移动通信来说,这种编码方式显然不合适。
脉冲编码调制( PCM)和增量调制(△ M),以及它们的各种改进型自适应增量调制( ADM),自适应差分编码( ADPCM)等,都属于波形编码技术。它们分别在 64以及 16Kbit/s的速率上,能给出高的编码质量,当速率进一步下降时,其性能会下降较快。
参量编码 又称为声源编码,是将信源信号在频率域或其它正交变换域提取特征参量,并将其变换成数字代码进行传输。具体说,参量编码是通过对语音信号特征参数的提取和编码,力图使重建语音信号具有尽可能高的可靠性,即保持原语音的语意,但重建信号的波形同原语音信号的波形可能会有相当大的差别。这种编码技术可实现低速率语音编码,比特率可压缩到 2Kbit/s-4.8Kbit/s ,甚至更低,但语音质量只能达到中等,特别是自然度较低,连熟人都不一定能听出讲话人是谁。线性预测编码( LPC )及其它各种改进型都属于参量编码。
混合编码 将波形编码和参量编码组合起来,克服了原有波形编码和参量编码的弱点,结合各自的长处,力图保持波形编码的高质量和参量编码的低速率,在 4-16Kbit/s速率上能够得到高质量的合成语音。多脉冲激励线性预测编码( MPLPC ),规划脉冲激励线性预测编码( KPELPC),码本激励线性预测编码( CELP)等都是属于混合编码技术。很显然,混合编码是适合于数字移动通信的语音编码技术。
三、无线通信中常见语音编码
PHS为 32kbit/s的 ADPCM编码, GSM为 13kbit/s的规则脉冲激励长期预测 (RPE-LTP)编码, WCDMA使用的是自适应多速率编码 (AMR), cdma2000使用的是可变速率编码 (IS-773, IS-127)。
1、 AMR 编码
(介绍它的原因是因为手机中有使用 AMR 铃声)。 在 3G多媒体通信的发展过程中,音视频编码有了很大的发展。 1999年初 ,3GPP采纳了由爱立信、诺基亚、西门子提出的自适应多速率 (AMR)标准作为第三代移动通信中语音编解码器的标准。 AMR声码器采用代数码本激励线性预测 (ACELP:Algebraic Code Excited Linear Prediction)编码方式。 AMR标准针对不同的应用,分别提出了 AMR- NB, AMR-WB和 AMR-WB+三种不同的协议。 AMR-NB应用于窄带,而 AMR-WB和 AMR-WB+则应用于宽带通信中。
对于手机铃声, AMR- NB对应的铃声文件扩展名是 .amr, AMR-WB对应铃声文件扩展名是 .awb。它们不是音乐,而是录音得到的原声。
2、 ADPCM编码
自适应差分脉码调制 (ADPCM)是在差分脉码调制 (DPCM)的基础上发展起来的。 DPCM根据信号的过去样值预测下一个样值,并将预测误差加以量化、编码,而后进行传输,由于预测误差的幅度变化范围小于原信号的幅度变化范围,因此在相同量化噪声条件下, DPCM的量化比特数小于 PCM,从而达到语音压缩编码的目的。 ADPCM与 DPCM比较,两者主要区别在于 ADPCM中的量化器和预测器采用了自适应控制。同时,在译码器中多了一个同步编码调整,其作用是为了在同步级连时不产生误差积累。
20世纪 80年代以来, 32kb/ s的 ADPCM技术已日趋成熟,并接近 PCM的质量,但却节省一半的信道容量,因而受到重视。 1984年 CCITT提出 G721建议 ,采用动态锁定量化器,这是一种具有自适应速度控制 32kb/ s的自适应量化器,并将它作为国际标准化的语音编码方法。 1986年又对 G721建议进行了修正,称 G726建议。
ADPCM不适合作音乐的编码,常用于录音。雅马哈的 MMF铃声用到 MIDI+PCM/ADPCM技术,其中 PCM和 ADPCM就是模拟音效,包括人声。
四、各种主流音频编码(或格式)的介绍
1、 PCM编码
PCM( Pulse Code Modulation) ,即脉冲编码调制,指模拟音频信号只经过采样、模数转换直接形成的二进制序列,未经过任何编码和压缩处理。 PCM编码的最大的优点就是音质好,最大的缺点就是体积大。在计算机应用中,能够达到最高保真水平的就是 PCM编码,在 CD、 DVD以及我们常见的 WAV文件中均有应用。
2、 WAVE格式(铃声)
这是一种古老的音频文件格式,由微软开发。 WAV对音频流的编码没有硬性规定,除了 PCM之外,还有几乎所有支持 ACM规范的编码都可以为 WAV的音频流进行编码。 WAV可以使用多种音频编码来压缩其音频流,不过我们常见的都是音频流被 PCM编码处理的 WAV,但这不表示 WAV只能使用 PCM编码, MP3编码同样也可以运用在 WAV中,只要安装好了相应的 Decode,就可以欣赏这些 WAV了。
在 Windows平台下,基于 PCM编码的 WAV是被支持得最好的音频格式,所有音频软件都能完美支持,由于本身可以达到较高的音质的要求,因此, WAV也是音乐编辑创作的首选格式,适合保存音乐素材。因此,基于 PCM编码的 WAV被作为了一种中介的格式,常常使用在其他编码的相互转换之中,例如 MP3转换成 WMA。
3、 MP3编码(铃声)
MP3,众所周知也就是 MPEG-1 Layer 3,是一个意图达到高的压缩率同时又能保持相当不错的音质的有损音频格式。 Layer 3不是 MPEG Layer 1或 Layer 2的新版,只是与它们不同的复杂的编码方案。现在有许多可用的 MP3编码器,其中最高品质的莫过于 Lame,同时它也是开源免费的。
MP3技术上支持多声道(多于 2个声道),但从未实施过或者今后也不会了。事实上,你可以编码源文件为 pro logic ( II)的多声道文件变换成立体声 MP3。
MP3有不同的采样率和比特率(注意比特率并不是量化精度,而是代表压缩比),代表不同的音质。网络上流行的 MP3是 44.1KHz采样率, 128Kbps比特率的。下表中列出了不同品质的 MP3,其中列表示 SR(采样频率 ),范围 8KHz~48KHz,行表示 BR(比特率),范围
8Kbps~320Kbps。
MPEG 2.5 Layer 3 | ||||||||||||||
BR(kbps) SR(KHz) | 8 | 16 | 24 | 32 | 40 | 48 | 56 | 64 | 80 | 96 | 112 | 128 | 144 | 160 |
8 | √ | √ | √ | √ | √ | √ | √ | √ | √ | √ | √ | √ | √ | √ |
11.025 | √ | √ | √ | √ | √ | √ | √ | √ | √ | √ | √ | √ | √ | √ |
12 | √ | √ | √ | √ | √ | √ | √ | √ | √ | √ | √ | √ | √ | √ |
MPEG 2 Layer 3 | ||||||||||||||
BR(kbps) SR(KHz) | 8 | 16 | 24 | 32 | 40 | 48 | 56 | 64 | 80 | 96 | 112 | 128 | 144 | 160 |
16 | √ | √ | √ | √ | √ | √ | √ | √ | √ | √ | √ | √ | √ | √ |
22.05 | √ | √ | √ | √ | √ | √ | √ | √ | √ | √ | √ | √ | √ | √ |
24 | √ | √ | √ | √ | √ | √ | √ | √ | √ | √ | √ | √ | √ | √ |
MPEG 1 Layer 3 | ||||||||||||||
BR(kbps) SR(KHz) | 32 | 40 | 48 | 56 | 64 | 80 | 96 | 112 | 128 | 160 | 192 | 224 | 256 | 320 |
32 | √ | √ | √ | √ | √ | √ | √ | √ | √ | √ | √ | √ | √ | √ |
44.1 | √ | √ | √ | √ | √ | √ | √ | √ | √ | √ | √ | √ | √ | √ |
48 | √ | √ | √ | √ | √ | √ | √ | √ | √ | √ | √ | √ | √ | √ |
表二 MP3对应的不同采样率和比特率
4、 OGG编码(铃声)
网络上出现了一种叫 Ogg Vorbis的音频编码,号称 MP3杀手! Ogg Vorbis究竟什么来头呢? OGG是一个庞大的多媒体开发计划的项目名称,将涉及视频音频等方面的编码开发。整个 OGG项目计划的目的就是向任何人提供完全免费多媒体编码方案。 OGG的信念就是: OPEN! FREE! Vorbis这个词汇是特里·普拉特柴特的幻想小说《 Small Gods》中的一个 "花花公子 "人物名。这个词汇成为了 OGG项目中音频编码的正式命名。目前 Vorbis已经开发成功,并且开发出了编码器。
Ogg Vorbis是高质量的音频编码方案,官方数据显示: Ogg Vorbis可以在相对较低的数据速率下实现比 MP3更好的音质。 Ogg Vorbis这种编码也远比 90年代开发成功的 MP3先进,她可以支持多声道,这意味着什么?这意味着 Ogg Vorbis在 SACD、 DTSCD、 DVD AUDIO抓轨软件的支持下,可以对所有的声道进行编码,而不是 MP3只能编码 2个声道。多声道音乐的兴起,给音乐欣赏带来了革命性的变化,尤其在欣赏交响时,会带来更多临场感。这场革命性的变化是 MP3无法适应的。
和 MP3一样, Ogg Vorbis是一种灵活开放的音频编码,能够在编码方案已经固定下来后还能对音质进行明显的调节和新算法的改良。因此,它的声音质量将会越来越好,和 MP3相似, Ogg Vorbis更像一个音频编码框架,可以不断导入新技术逐步完善。和 MP3一样, OGG也支持 VBR(可变比特率 )。
5、 MPC 编码
MPC (Muse Pack)高比特率高保真音乐格式。是另外一个令人刮目相看的实力派选手,它的普及过程非常低调,也没有什么复杂的背景故事,她的出现目的就只有一个,更小的体积更好的音质! MPC以前被称作 MP+,很显然,可以看出她针对的竞争对手是谁。但是,只要用过这种编码的人都会有个深刻的印象,就是她出众的音质。
6、 mp3PRO 编码
2001年 6月 14日,美国汤姆森多媒体公司 (Thomson Multimedia SA)与佛朗赫弗协会 (Fraunhofer Institute)于 6月 14日 发布了一种新的音乐格式版本,名称为 mp3PRO,这是一种基于 mp3编码技术的改良方案,从官方公布的特征看来确实相当吸引人。从各方面的资料显示, mp3PRO并不是一种全新的格式,完全是基于传统 mp3编码技术的一种改良,本身最大的技术亮点就在于 SBR( Spectral Band Replication 频段复制),这是一种新的音频编码增强算法。它提供了改善低位率情况下音频和语音编码的性能的可能。这种方法可在指定的位率下增加音频的带宽或改善编码效率。 SBR最大的优势就是在低数据速率下实现非常高效的编码,与传统的编码技术不同的是, SBR更像是一种后处理技术,因此解码器的算法的优劣直接影响到音质的好坏。高频实际上是由解码器(播放器)产生的, SBR编码的数据更像是一种产生高频的命令集,或者称为指导性的信号源,这有点駇 idi的工作方式。我们可以看到, mp3PRO其实是一种 mp3信号流和 SBR信号流的混合数据流编码。有关资料显示, SBR技术可以改善低数据流量下的高频音质,改善程度约为 30%,我们不管这个 30%是如何得来的,但可以事先预知这种改善可以让 64kbps的 mp3达到 128kbps的 mp3的音质水平(注:在相同的编码条件下,数据速率的提升和音质的提升不是成正比的,至少人耳听觉上是这样的),这和官方声称的 64kbps的 mp3PRO可以媲美 128kbps的 mp3的宣传基本是吻合的。
7、 WMA(铃声)
WMA就是 Windows Media Audio编码后的文件格式,由微软开发, WMA针对的不是单机市场,而是网络。竞争对手就是网络媒体市场中著名的 Real Networks。微软声称,在只有 64kbps的码率情况下, WMA可以达到接近 CD的音质。和以往的编码不同, WMA支持防复制功能,她支持通过 Windows Media Rights Manager 加入保护,可以限制播放时间和播放次数甚至于播放的机器等等。 WMA支持流技术,即一边读一边播放,因此 WMA可以很轻松的实现在线广播,由于是微软的杰作,因此,微软在 Windows中加入了对 WMA的支持, WMA有着优秀的技术特征,在微软的大力推广下,这种格式被越来越多的人所接受。
8、 RA
RA就是 RealAudio格式,这是各位网虫接触得非常多的一种格式,大部分音乐网站的在线试听都是采用了 RealAudio,这种格式完全针对的就是网络上的媒体市场,支持非常丰富的功能。最大的闪烁点就是这种格式可以根据听众的带宽来控制自己的码率,在保证流畅的前提下尽可能提高音质。 RA可以支持多种音频编码,包括 ATRAC3。和 WMA一样, RA不但都支持边读边放,也同样支持使用特殊协议来隐匿文件的真实网络地址,从而实现只在线播放而不提供下载的欣赏方式。这对唱片公司和唱片销售公司很重要,在各方的大力推广下, RA和 WMA是目前互联网上,用于在线试听最多的音频媒体格式。
9、 APE
APE是 Monkey's Audio提供的一种无损压缩格式。 Monkey's Audio提供了 Winamp的插件支持,因此这就意味着压缩后的文件不再是单纯的压缩格式,而是和 MP3一样可以播放的音频文件格式。这种格式的压缩比远低于其他格式,但能够做到真正无损,因此获得了不少发烧用户的青睐。在现有不少无损压缩方案种, APE是一种有着突出性能的格式,令人满意的压缩比以及飞快的压缩速度,成为了不少朋友私下交流发烧音乐的唯一选择。
10、 AMR(铃声 )
AMR(Adaptive Multi-Rate)自适应多速率编码。是一种应用在手机上的一种语音压缩格式,也就是说我们用手机录音而成的文件就是这种格式的。 AMR格式压缩率较高但是音质相对较差了一点。优点就是我们可以随心所欲地录制。
11、 AAC/AAC+
Ø 什么是 AAC?
AAC代表 Advanced Audio Coding(高级音频解码 ),是一种由 MPEG-4标准定义的有损音频压缩格式,由 Fraunhofer发展, Dolby, Sony和 AT&T是主要的贡献者。它被认为是 MP3的继承者。 AAC能够在一条音轨中包括 48条全带宽(直到 96khz)音频声道,加上 15条低频增强( LFE,限制到 120Hz)声道,直到 15条数据流并且更多。
其实, AAC的技术早在 1997年就成型了,当时被称为 MPEG-2 AAC,但是随着 2000年 MPEG-4音频标准的出台, MPEG-2 AAC 被用在这一标准中,同时追加了一些新的编码特性,所以它就改称为 MPEG-4 AAC 。与 MP3不同, AAC的技术掌握在多家厂商手中,这使得 AAC编码器非常多,既有纯商业的编码器,也有完全免费的编码器。纯商业的编码器如 Fraunhofer IIS的 FhG、杜比公司的 Dolby AAC,免费的有 Free AAC、苹果公司的 iTune, Nero也通过它的 Nero 6提供了 Nero AAC。
AAC是一种高压缩比的音频压缩算法,它的压缩比可达 20:1,远远超过了 AC-3、 MP3等较老的音频压缩算法。一般认为, AAC格式在 96Kbps码率的表现超过了 128Kbps的 MP3音频。 AAC另一个引人注目的地方就是它的多声道特性,它支持 1~48个全音域音轨和 15个低频音轨。除此之外, AAC最高支持 96KHz的采样率,其解析能力足可以和 DVD-Audio的 PCM编码相提并论,因此,它得到了 DVD论坛的支持,成为了下一代 DVD的标准音频编码。
AAC的家族非常庞大,有 9种规格,可适应不同场合应用的需要。其中 LC低复杂性规格去掉了预测和增益控制模块,降低了复杂度,提高编码效率,是目前使用得最多的规格。
目前,苹果、 AT&T和 RealNetworks已经开始提供收费的 AAC音乐下载服务。 AAC也得到了众多硬件厂商的支持,除了苹果的 iPOD随身听,还有诺基亚的多款手机及松下的部分随身听产品可支持 AAC音频的播放。另外,目前已经有部分 MPEG-1/2解码芯片中加入了 AAC解码功能,出现支持 AAC音频播放的 DVD影碟机肯定是迟早的事情。
Ø 什么是 HE-AAC(也称 AAC+)和 LC-AAC?
AAC有两种 LC AAC与 HE AAC, HE AAC是较新的。 LC意思是 "low complexity"(低复杂性 )而 HE意思是 "high efficiency"(高效性 )。
HE-AAC也称之为 AAC SBR/AAC+/aacplus等。注意 HE-AAC注重于低码流的编码并很适合多声道文件(更小的文件尺寸)。
从学术上讲, HE-AAC混合了 AAC与 SBR技术,处理低比特率能有较好的效果。 SBR代表的是 Spectral Band Replication(频段复制 )。 SBR的关键是在低码流下提供全带宽的编码而不会产生产生多余的信号。传统认为音频编码在低码流下意味着减少带宽和降低采样率或产生令人不快的噪音信号。 SBR解决问题的方法是让核心编码去编码低频信号,而 SBR解码器通过分析低频信号产生高频信号和一些保留在比特流中的指导信号(通常码流极低, ~2 kbps)。这也是为什么被叫做 Spectral Band Replication的原因,它只是增加音频的带宽,而非重建。 (类似的技术也用在 mp3 pro 64kbps能媲美 128kbps的 mp3就是这道理 )
Ø MP4与 AAC
MP4最初是一种音频格式,和 MPEG-4没有太大的关系,就像 MP3和 MPEG-3没有关系一样。 MP3是 MPEG-1 Audio Layer 3 的缩写;而 MP4是 MPEG-2 AAC,完完全全是一种音频压缩格式, 增加了诸如对立体声的完美再现、多媒体控制、降噪等新特性,最重要的是, MP4通过特殊的技术实现数码版权保护,这是 MP3所无法比拟的。
现在市面上的 MP4多数偏向于多媒体播放器,能够播放 AAC的,可以说是凤毛麟角。甚至有媒体把 MP4说成是 MPEG4的缩写,这在以前看来是一个谬论,但是经过商家不断的炒作,这个谬论也就成为了真理。现在若果你去电脑城听到 MP4这个词,绝对是能播放视频格式的多媒体播放器的概念,而不是能播放音频 MP4 AAC的随身听。出现这种怪现象不是毫无原因的,上面已提到 AAC有版权保护功能,这也是众多唱片公司支持 AAC的原因,要使自己的播放器支持 AAC,还得支持付一定的版权费或专利费,另外, AAC的来源也是个问题,不像 MP3那么开放,网上来源极少,所以目前音频 MP4播放器发展尚不成熟,鉴于以上现状,众商家干脆“借尸还魂”,把 MP4等同 MPEG-4缩写而论,这样也恰好应了 MP4是 MP3的下一代这条规律,除了支持 MP3所具有的音乐播放功能外,还具备强大的 MPEG-4视频播放能力,另外,恰好“ 4”在“ 3”后,从这点出发,把 MP4等同 MPEG-4是合理的。