PCM（脉冲编码调制）、iLBC编解码、opus（声音编码格式）、VP8视频压缩格式、H.264数字视频压缩格式

最新推荐文章于 2024-07-09 10:33:38 发布

rtoax

最新推荐文章于 2024-07-09 10:33:38 发布

阅读量3.3k

点赞数

分类专栏：【基础知识】【人机交互】

本文链接：https://blog.csdn.net/Rong_Toa/article/details/108232524

版权

【基础知识】同时被 2 个专栏收录

427 篇文章

订阅专栏

【人机交互】

134 篇文章

订阅专栏

本文深入探讨了PCM、iLBC、Opus、VP8和H.264等音视频编码技术，详细介绍了它们的发展历程、工作原理、技术优势及应用场景。PCM作为数字通信的基础，iLBC在包交换网络中表现出色，Opus则适用于实时声音传输，VP8和H.264分别在视频压缩领域有着显著的创新和优势。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

PCM（脉冲编码调制）

https://baike.baidu.com/item/PCM/1568054?fr=aladdin

脉冲编码调制(Pulse Code Modulation,PCM)，由A.里弗斯于1937年提出的，这一概念为数字通信奠定了基础，60年代它开始应用于市内电话网以扩充容量，使已有音频电缆的大部分芯线的传输容量扩大24～48倍。到70年代中、末期，各国相继把脉码调制成功地应用于同轴电缆通信、微波接力通信、卫星通信和光纤通信等中、大容量传输系统。80年代初，脉冲编码调制已用于市话中继传输和大容量干线传输以及数字程控交换机，并在用户话机中采用。

在光纤通信系统中，光纤中传输的是二进制光脉冲“0”码和“1”码，它由二进制数字信号对光源进行通断调制而产生。而数字信号是对连续变化的模拟信号进行抽样、量化和编码产生的，称为PCM（Pulse-code modulation），即脉冲编码调制。这种电的数字信号称为数字基带信号，由PCM电端机产生。数字传输系统都是采用脉码调制（Pulse-code modulation）体制。PCM最初并非传输计算机数据用的，而是使交换机之间有一条中继线不是只传送一条电话信号。PCM有两个标准（表现形式）即E1和T1。

中国采用的是欧洲的E1标准。T1的速率是1.544Mbit/s，E1的速率是2.048Mbit/s。

脉冲编码调制可以向用户提供多种业务，既可以提供从2M到155M速率的数字数据专线业务，也可以提供话音、图象传送、远程教学等其他业务。特别适用于对数据传输速率要求较高，需要更高带宽的用户使用。

发展史

脉冲编码调制是70年代末发展起来的，记录媒体之一的CD，80年代初由飞利浦和索尼公司共同推出。脉码调制的音频格式

也被DVD-A所采用，它支持立体声和5.1环绕声，1999年由DVD讨论会发布和推出的。脉冲编码调制的位深度，从14-bit发展到16-bit、18-bit、20-bit直到24-bit；采样频率从44.1kHz发展到192kHz。PCM脉码调制这项技术可以改善和提高的方面则越来越来小。只是简单的增加PCM脉码调制位深度和采样率，不能根本的改善它的根本问题。其原因是PCM的主要问题在于：

（1）任何脉冲编码调制数字音频系统需要在其输入端设置急剧升降的滤波器，仅让20Hz-22.05kHz的频率通过（高端22.05kHz是由于CD44.1kHz的一半频率而确定）。

（2）在录音时采用多级或者串联抽选的数字滤波器（减低采样频率），在重放时采用多级的内插的数字滤波器（提高采样频率），为了控制小信号在编码时的失真，两者又都需要加入重复定量噪声。这样就限制了PCM技术在音频还原时的保真度。

工作原理

脉冲编码调制就是把一个时间连续，取值连续的模拟信号变换成时间离散，取值离散的数字信号后在信道中传输。脉冲编码调制就是对模拟信号先抽样，再对样值幅度量化，编码的过程。

抽样，就是对模拟信号进行周期性扫描，把时间上连续的信号变成时间上离散的信号，抽样必须遵循奈奎斯特抽样定理。该模拟信号经过抽样后还应当包含原信号中所有信息，也就是说能无失真的恢复原模拟信号。它的抽样速率的下限是由抽样定理确定的。抽样速率采用8KHZ。

量化，就是把经过抽样得到的瞬时值将其幅度离散，即用一组规定的电平，把瞬时抽样值用最接近的电平值来表示,通常是用二进制表示。

量化误差：量化后的信号和抽样信号的差值。量化误差在接收端表现为噪声，称为量化噪声。量化级数越多误差越小，相应的二进制码位数越多，要求传输速率越高，频带越宽。为使量化噪声尽可能小而所需码位数又不太多，通常采用非均匀量化的方法进行量化。非均匀量化根据幅度的不同区间来确定量化间隔，幅度小的区间量化间隔取得小，幅度大的区间量化间隔取得大。

一个模拟信号经过抽样量化后，得到已量化的脉冲幅度调制信号，它仅为有限个数值。

编码，就是用一组二进制码组来表示每一个有固定电平的量化值。然而，实际上量化是在编码过程中同时完成的，故编码过程也称为模/数变换，可记作A/D。

话音信号先经防混叠低通滤波器，进行脉冲抽样，变成8KHz重复频率的抽样信号（即离散的脉冲调幅PAM信号），然后将幅度连续的PAM信号用“四舍五入”办法量化为有限个幅度取值的信号，再经编码后转换成二进制码。对于电话，CCITT规定抽样率为8KHz，每抽样值编8位码，即共有2∧8=256个量化值，因而每话路PCM编码后的标准数码率是64kb/s。为解决均匀量化时小信号量化误差大，音质差的问题，在实际中采用不均匀选取量化间隔的非线性量化方法，即量化特性在小信号时分层密，量化间隔小，而在大信号时分层疏，量化间隔大。

在实际中使用的是两种对数形式的压缩特性：A律和μ律，A律编码主要用于30/32路一次群系统，μ律编码主要用于24路一次群系统。A律PCM用于欧洲和中国，μ律PCM用于北美和日本。

iLBC编解码

https://baike.baidu.com/item/iLBC

iLBC是一种专为包交换网络通信设计的编解码，优于目前流行的G.729、G.723.1，对丢包进行了特有处理，即使在丢包率相当高的网络环境下，仍可获得非常清晰的语音效果。

基本介绍

30ms ptime的iLBC所占用的总通信带宽比通常采用的ptime 20ms的G.729的带宽还要小，以下是iLBC与传统编解码占用带宽列表：

语音质量一直是VoIP应用的主要难点，如何保证和提高IP网络传输语音的通话效果，是VoIP应用迫切需要解决的问题。“iLBC”编解码的出现，解决了在包交换的IP网络中，传输语音所遇到的网络丢包严重影响通话质量等实际问题，实现了“语音质量的飞跃”。

下图为在不同的网络丢包环境下，使用iLBC与G.729A、G.723.1编解码的语音质量比较。

无论在高丢包率条件下还是在没有丢包的条件下，iLBC的语音质量都优于目前流行的G.723.1, G.729A等标准编解码；而且丢包率越大，使用iLBC的语音质量优势越明显。通常情况下，为了衡量IP网络语音质量，将≥5%丢包率的网络情况定义为VoIP的极限网络条件。经过语音质量测试，即使在5%丢包率的情况下，iLBC仍然能够提供相当于GSM手机的语音质量。

技术优势

iLBC的主要优势在于对丢包的处理能力。iLBC独立处理每一个语音包，是一种理想的包交换网络语音编解码。在正常情况下，iLBC会记录下当前数据的相关参数和激励信号，以便在之后的数据丢失的情况下进行处理；在当前数据接收正常而之前数据包丢失的情况下，iLBC会对当前解码出的语音和之前模拟生成的语音进行平滑处理，以消除不连贯的感觉；在当前数据包丢失的情况下，iLBC会对之前记录下来的激励信号作相关处理并与随机信号进行混合，以得到模拟的激励信号，从而得到替代丢失语音的模拟语音。总的来说，和标准的低位速率编解码相比，iLBC使用更多自然、清晰的元素，精确的模仿出原始语音信号，被誉为更适合包交换网络使用的可获得高语音质量的编解码。

此外，大部分标准的低位速率编解码，如G.723.1和G.729，仅对300Hz——3400Hz的频率范围进行编码。在这个频率范围里，用G.711编解码所达到的语音质量，就是传统PSTN网络进行语音通话的效果。

Opus（声音编码格式）

https://baike.baidu.com/item/opus/680370

opus是一种声音编码格式，Opus的前身是celt编码器。是由IETF开发，适用于网络上的实时声音传输，标准格式为RFC 6716。

Opus编码器是一个有损声音编码的格式，由互联网工程任务组（IETF）近来开发Opus 格式是一个开放格式，使用上没有任何专利或限制。

特性

Opus的前身是celt编码器。在当今的有损音频格式争夺上，拥有众多不同编码器的AAC格式打败了同样颇有潜力的Musepack、Vorbis等格式，而在Opus格式诞生后，情况似乎不同了。通过诸多的对比测试，低码率下Opus完胜曾经优势明显的HE AAC，中码率就已经可以媲敌码率高出30%左右的AAC格式，而高码率下更接近原始音频。

播放

Opus格式音频可以使用GStreamer, libavcodec(ffmpeg)，Foobar2000，Firefox（15 Beta或更新）等播放，推荐Foobar2000 1.1.14 beta 1或者更新的版本播放。

技术细节

6 kb /秒到510 kb / s的比特率
采样率从8 kHz（窄带）到48 kHz（全频）
帧大小从2.5毫秒到60毫秒
支持恒定比特率（CBR）和可变比特率（VBR）
从窄带到全频段的音频带宽
支持语音和音乐
支持单声道和立体声
支持多达255个频道（多数据流的帧）
可动态调节比特率，音频带宽和帧大小
良好的鲁棒性丢失率和数据包丢失隐藏（PLC）
浮点和定点实现

VP8视频压缩格式

https://baike.baidu.com/item/VP8

Google 也发布了 VP8 编码的实做库：libvpx，以BSD授权条款的方式发布，随后也附加了专利使用权。而在经过一些争论之后，最终 VP8 的授权确认为一个开放源代码授权。

简介

视频压缩解决方案厂商On2 Technologies公司现已推出最新的视频压缩格式On2 VP8。On2 VP8是第八代的On2视频，能以更少的数据提供更高质量的视频，而且只需较小的处理能力即可播放视频，为致力于实现产品及服务差异化的网络电视、IPTV和视频会议公司提供理想的解决方案。

对更高效视频压缩格式的需求显着

高清电影和电视节目的下载与发送如今已是司空见惯的事情，再加上价格廉宜的高清网络摄像头，我们预计高分辨率的用户自创内容将迅速增长，而高品质的视频通信解决方案也将被广泛采用。

虽然数据传输速度在不断提高，但带宽的成本和可用性仍将是控制实施成本的主要障碍，因为视频服务使用的带宽比任何其它IP应用都要大。根据思科公司 (Cisco) 出版的白皮书显示，2012年，IP流量将超过半个皆字节 (zettabyte, ZB)，其中视频占所有消费应用流量的近90%。2012年，单是互联网视频预计每月就产生10艾字节(exabyte, EB) 的数据。

突破创新

On2 VP8加入了40多项的创新技术，在压缩效率和性能方面超越了市面上的所有其他视频格式。这些创新技术包括：

* 基于虚拟参考祯的高级预计编码
* 基于宏块级的多线程技术
* 改进的局域参考编码
* 增加复杂度的先进上下文熵编码
* 稀疏目标区域的自适应回路滤波

On2 VP8在质量和性能方面超越H.264、VC-1和Real 视频

随着On2 VP8的推出，On2 视频现已大幅超越所有其它商用格式的压缩性能。例如，主要的H.264实现方案需要两倍的数据才能提供与On2 VP8相同质量的视频 (基于客观峰值信噪比 (PSNR) 测试结果)。

此外，On2 VP8比特流的解码只需要极少的处理周期，故用户无需拥有最新、最高级的PC机或移动设备也能够享受到On2 VP8的视频质量。

技术分析

在这里我尝试回答的问题是这些：

VP8有多好？从压缩的角度说这种文件格式能比H.264更好吗？以及一个优秀的VP8编码器能击败x264吗？On2声称VP8比H.264好50%，但是On2经常说出这种他们自己都无法提供有效证据的荒谬声明，所以这样一个数字几乎可以断定是不正确的。比如说VP7，曾被认为比H.264好15%并且快很多，但事实是它既没有H.264质量好也没有它快。
On2的VP8实现怎么样？和标准本身多好无关，这是说具体实现是否优秀，或者说On2的VP8实现会和VP3一样，发布了一个根本无法使用的糟糕实现，将希望寄托于开发者团体去修正他们。让我们祈求VP8不要这样吧，Theora的修补花了6年啊！
VP8真正意义上免专利的可能性有多少？即使VP8比H.264差，但免专利显而易见是一个很有用的特性。但是就像我在之前的文章中提到的，Google的声明并不能保证它就是免专利的。微软在几年前发布VC-1时曾做过类似的事，但是发布后没几个月，一堆公司就在他上面不断地申请专利，没过多久专利的数目就足以形成专利池了。

我们从VP8的核心特性展开分析。我们主要通过和现存视频格式的比较来分析。谨记在心的是编码器和标准是两码事，完全有可能一个优秀的编码器是建立在一个糟糕的标准之上的，反之亦然。这就是为什么一个非常优秀的MPEG-1编码器能击败一个惨不忍睹的H.264编码器。

编码器：预测->变换+量化->熵编码->除块滤波
解码器：熵解码->预测->反量化+反变换->除块滤波

H.264数字视频压缩格式

https://baike.baidu.com/item/H.264?fromtitle=H264&fromid=7338504

H.264，同时也是MPEG-4第十部分，是由ITU-T视频编码专家组（VCEG）和ISO/IEC动态图像专家组（MPEG）联合组成的联合视频组（JVT，Joint Video Team）提出的高度压缩数字视频编解码器标准。这个标准通常被称之为H.264/AVC（或者AVC/H.264或者H.264/MPEG-4 AVC或MPEG-4/H.264 AVC）而明确的说明它两方面的开发者。

H264标准各主要部分有Access Unit delimiter（访问单元分割符），SEI（附加增强信息），primary coded picture（基本图像编码），Redundant Coded Picture（冗余图像编码）。还有Instantaneous Decoding Refresh（IDR，即时解码刷新）、Hypothetical Reference Decoder（HRD，假想参考解码）、Hypothetical Stream Scheduler（HSS，假想码流调度器）。

背景介绍

H.264是国际标准化组织（ISO）和国际电信联盟（ITU）共同提出的继MPEG4之后的新一代数字视频压缩格式。H.264是ITU-T以H.26x系列为名称命名的视频编解码技术标准之一。H.264是ITU-T的VCEG（视频编码专家组）和ISO/IEC的MPEG（活动图像编码专家组）的联合视频组（JVT：joint video team）开发的一个数字视频编码标准。该标准最早来自于ITU-T的称之为H.26L的项目的开发。H.26L这个名称虽然不太常见，但是一直被使用着。H.264是ITU-T以H.26x系列为名称命名的标准之一，AVC是ISO/IEC MPEG一方的称呼。

国际上制定视频编解码技术的组织有两个，一个是“国际电联（ITU-T）”，它制定的标准有H.261、H.263、H.263+等，另一个是“国际标准化组织（ISO）”它制定的标准有MPEG-1、MPEG-2、MPEG-4等。而H.264则是由两个组织联合组建的联合视频组（JVT）共同制定的新数字视频编码标准，所以它既是ITU-T的H.264，又是ISO/IEC的MPEG-4高级视频编码（Advanced Video Coding，AVC）的第10 部分。因此，不论是MPEG-4 AVC、MPEG-4 Part 10，还是ISO/IEC 14496-10，都是指H.264。

1998年1月份标准开始草案征集，1999年9月，完成第一个草案，2001年5月制定了其测试模式TML-8，2002年6月的 JVT第5次会议通过了H.264的FCD板。2003年3月正式发布。在2005年又开发出了H.264的更高级应用标准MVC 和 SVC 版本。

国际电联ITU和MPEG组织在发布了H.264标准之后，很快就发布公告，为下一代视频编解码标准H.265征集技术方案。为H.265设定的技术性能指标是：压缩效率比H.264提高1倍、且不明显提高编码和解码的计算量。据MPEG组织2009年西安会议的回顾，尚无一个技术提案达到上述指标。

H.264是在MPEG-4技术的基础之上建立起来的，其编解码流程主要包括5个部分：帧间和帧内预测（Estimation）、变换（Transform）和反变换、量化（Quantization）和反量化、环路滤波（Loop Filter）、熵编码（Entropy Coding）。

H.264标准的主要目标是：与其它现有的视频编码标准相比，在相同的带宽下提供更加优秀的图象质量。通过该标准，在同等图象质量下的压缩效率比以前的标准（MPEG2）提高了2倍左右。

H.264可以提供11个等级、7个类别的子协议格式（算法），其中等级定义是对外部环境进行限定，例如带宽需求、内存需求、网络性能等等。等级越高，带宽要求就越高，视频质量也越高。类别定义则是针对特定应用，定义编码器所使用的特性子集，并规范不同应用环境中的编码器复杂程度。

优势

1．低码率（Low Bit Rate）：和MPEG2和MPEG4 ASP等压缩技术相比，在同等图像质量下，采用H.264技术压缩后的数据量只有MPEG2的1/8，MPEG4的1/3。 [1]

2．高质量的图像：H.264能提供连续、流畅的高质量图像（DVD质量）。 [1]

3．容错能力强：H.264提供了解决在不稳定网络环境下容易发生的丢包等错误的必要工具。 [1]

4．网络适应性强：H.264提供了网络抽象层（Network Abstraction Layer），使得H.264的文件能容易地在不同网络上传输（例如互联网，CDMA，GPRS，WCDMA，CDMA2000等）。 [1]

H.264最大的优势是具有很高的数据压缩比率，在同等图像质量的条件下，H.264的压缩比是MPEG-2的2倍以上，是MPEG-4的1.5～2倍。举个例子，原始文件的大小如果为88GB，采用MPEG-2压缩标准压缩后变成3.5GB，压缩比为25∶1，而采用H.264压缩标准压缩后变为879MB，从88GB到879MB，H.264的压缩比达到惊人的102∶1。低码率（Low Bit Rate）对H.264的高的压缩比起到了重要的作用，和MPEG-2和MPEG-4 ASP等压缩技术相比，H.264压缩技术将大大节省用户的下载时间和数据流量收费。尤其值得一提的是，H.264在具有高压缩比的同时还拥有高质量流畅的图像，正因为如此，经过H.264压缩的视频数据，在网络传输过程中所需要的带宽更少，也更加经济。 [1]