5.MPEG-4中的Profile
MPEG-4为音/视频对象编码提供了大量工具。为了有效的实现标准,能够用于特定程序的MPEG-4系统、音频、视频工具集的子集被标记出来。这些子集被称为Profile。它们限定了工具集必须实现的解码器。每个Profile都设定了一个或多个限制计算复杂度的级别。这个方法很像MPEG-2,最出名的Profile/级别组合是‘主Profile/主级别’。一个Profile/级别组合支持:
- 一个编码器/解码器构建工具,只实现它需要的标准子集,同时与由同一组合构建的其他MPEG-4设备保持交互。
- 检查MPEG-4设备是否与标准兼容(一致性测试)。
对不同的媒体内容(音频、视频、图像)或场景描述有着不同的Profile。MPEG并不规定或推荐Profile组合,但是我们努力使不同领域之间有良好的匹配。
5.1视频Profile
标准的视频部分提供了用于自然/合成/混合视频内容编码的Profile。自然视频内容有5个Profile:
1. 简单视频Profile为矩形视频对象提供了有效的、含错误恢复的编码。适用于移动网络中的应用,如PCS和IMT2000。
2. 简单可变视频Profile在简单视频Profile基础上加入了对时间/空间可变对象的编码。它适用于受比特率或解码器限制而提供多个质量等级的应用,例如因特网应用和软件解码。
3. 核心视频Profile在简单视频Profile基础上加入了任意形状和时间可变对象的编码。它适用于提供相对简单的内容交互的应用(因特网多媒体应用)。
4. 主视频Profile在核心视频Profile基础上加入了隔行、半透明、精灵对象的编码。它适用于交互/娱乐级广播和DVD应用。
5. N比特视频Profile在核心视频Profile基础上加入了对像素深度从4到12比特可变的对象编码。它适用于监控程序。
合成/混合视频内容的Profile有:
6. 简单脸部动画视频Profile,提供了一种简单方法使脸部模型运动,适用于为听力受损人士的音频/视频演示之类的应用。
7. 可变纹理视频Profile为静态图像(纹理)对象提供了空间可变编码,适用于需要多级可变性的应用,如游戏中的纹理映射,高分辨率数码相机。
8. 基础动态2-D纹理视频Profile提供了空间可变性,SNR可变性,基于网格的静态图像(纹理)对象动画,简单脸部对象动画。
9. 混合视频Profile集成了对任意形状/时间可变的自然视频对象(类似核心视频Profile)的解码,以及对若干合成/混合对象的解码。包括简单的脸部和动态图像对象。它适用于很多内容丰富的多媒体应用。
第2版对自然视频加入了以下Profile:
10. 高级实时简单Profile,通过使用一个后通道和低缓冲延迟的改进时间分辨率稳定性,为矩形视频对象编码提供了更高级的错误恢复编码技术。它适用于实时编码应用。如可视电话、视频会议、远程监控。
11. 核心可变Profile在核心Profile基础上加入了对时间/空间可变的任意形状对象的编码。这个Profile的主要功能是基于SNR的对象和区域/重要对象的时间/空间可变性。它适用于因特网、移动和广播应用。
12. 高级编码效率Profile提高了矩形和任意形状对象的编码效率。它适用于诸如移动广播接收、图像序列获取(摄录像机)以及其他要求高编码效率而不太在意内存占用的应用。
第2版中的合成/混合视频内容Profile有:
13. 高级可变纹理Profile,支持对任意形状的纹理和图像解码,包括可变形状编码、小波区块(贴片、地砖……很多种译法)和错误恢复。它适用于需要快速随机访问、多级可变性、任意形状静态对象编码的应用。例如因特网上基于内容的静态图像浏览,支持多媒体的PDA,支持因特网的高分辨率数码相机。
14. 高级核心Profile,融合了对任意形状视频对象的解码(如核心视频Profile),以及对任意形状可变图像对象的解码(如高级可变纹理Profile)。它适用于多种内容丰富的多媒体应用,如因特网上的交互多媒体流。
15. 简单脸部与肢体动画Profile,它是简单脸部动画Profile的一个超集,当然,加入的是肢体动画。
在后续版本中,还会加入下列Profile:
16. 高级简单Profile,在只有矩形对象时很像简单Profile,但是它有一些使自己更高效的工具:B帧,1/4点运动补偿,整体运动补偿。
17. 细粒度可变性Profile,支持最多8个可变层。这样传输质量可以易于适应传输和解码环境。它可以作为一个基础层与简单Profile或高级简单Profile一起使用。
18. 简单工作室Profile,用于工作室编辑应用的极高质量Profile。它只有I帧,但是也支持任意形状和多个ALPHA通道。比特率可以高达2GB每秒。
19. 核心工作室Profile,在简单工作室Profile基础上加入了P帧,使得它更有效,但也需要更复杂的实现。
5.2音频Profile
MPEG-4第1版中定义的音频Profile:
1. 语音Profile,提供了HVXC(一个极低比特率的参数化语音编码器),一个CELP窄带/宽带语音编码器,一个文本语音合成接口。
2. 合成Profile,提供了使用SAOL和波表的乐谱驱动合成,还有一个以极低比特率生成声音和语音的文本语音合成接口。
3. 可变Profile,语音Profile的一个超集,适用于网络中的语音和音乐可变编码,例如因特网和窄带音频数字广播(NADIB)。比特率范围是6 kbit/s到24 kbit/s,带宽3.5KHZ到9KHZ。
4. 主Profile,其他所有Profile的一个超集,包括自然/合成音频的所有工具。
MPEG4第2版中加入的4个Profile:
5. 高质量音频Profile,包括CELP语音编码器和低复杂度AAC编码器(含长期预测)。可变编码可以由AAC可变对象类型完成。还可以使用新的错误恢复(ER)比特流语法(可选)。
6. 低延迟音频Profile,包括HVXC和CELP语音编码器(可选择使用ER比特流语法),低延迟AAC编码器和文本语音合成接口TTSI。
7. 自然语音Profile,包括MPEG-4提供的所有自然语音编码工具。
8. 移动音频网络Profile,包括低延迟/可变AAC对象类型,如TwinVQ和BSAC。这个Profile通过使用高质量音频编码的非MPEG语音编码算法来扩展通信应用程序。
5.3图像Profile
图像Profile定义了场景中可以使用哪些图像和文字元素。标准中的系统部分定义了下列Profile:
1. 简单2-D图像Profile,只为BIFS中的图像元素提供必要的工具,将一个或多个视频对象放置到场景中。
2. 完全2-D图像Profile,提供二维图像功能,支持任意二维图像和文本(甚至可以和其他视频对象连接)。
3. 完全图像Profile,提供高级图形元素,例如高度网格和挤压成形,以及创建带有复杂光照的内容。这个Profile支持类似高度仿真的复杂虚拟世界等应用。
4. 3D音频图像Profile,听上去有矛盾,但实际上不是。这个Profile不负责视频渲染,而是提供图像工具来定义场景的声学属性(几何、声音吸收、传播/漫射、材质透明度)。这个Profile用于音频信号的环境空间化(参见10.2.7)。
5.4场景表示Profile
场景表示Profile(场景描述Profile)是在标准的系统部分定义的。支持只带有音频、二维、三维或2D/3D混合内容的视听场景。
1. 音频场景表示Profile,提供了一组BIFS场景表示元素用于只有音频的应用。它支持类似广播收音等应用。
2. 简单2-D场景表示Profile提供了用于将一个或多个视频/音频对象放置到场景中的BIFS场景表示元素。它支持显示存在潜在变化的场景中的视频/音频内容,但是没有交互能力。它支持类似广播电视的应用。
3. 完全2-D场景表示Profile为所有BIFS 2-D场景表示元素提供工具。它支持类似2-D变换和ALPHA混合等特性。它支持需要大规模定制交互性的2-D应用。
4. 完全场景表示Profile为所有BIFS场景表示元素提供工具。它支持类似动态虚拟3-D世界和游戏等应用。
5. 3D音频场景表示Profile,为三维声音定位提供工具,无论是与场景的声学参数相关还是与感知属性相关。用户可以通过改变音源的位置、改变房间的效果、改变听点来进行交互。这个Profile用于只含有音频的应用。
5.5 MPEG-J Profile
只有如下两个MPEG-J Profile:
1. 个人——专为个人设备的一个轻量级包。
个人Profile处理一些受限设备,如移动电话和便携设备。例如移动电话,PDA,游戏机等。这个Profile包括下列MPEG-J API包:
1) 网络
2) 场景
3) 资源
2. 主Profile——包括所有MPEG-J API。
主Profile处理各种设备,包括娱乐设备。例如机顶盒,基于电脑的多媒体系统等。它是个人Profile的超集,除了个人Profile中的包,它还提供下列MPEG-J API包:
1) 解码器
2) 解码器功能
3) 段滤波和服务信息
5.6对象描述符Profile
对象描述符Profile包括下列工具:
- 对象描述符(OD)工具
- 同步层(SL)工具
- 对象内容信息(OCI)工具
- 知识产权管理保护(IPMP)工具
现在只定义了一个包括所有这些工具的Profile。定义这个Profile的目的不是给这些工具划分子集,而是给它们定义级别。特别是对同步层工具,因为MPEG-4允许多个时间基准同时存在。在为Profile定义了级别上下文之后,就可以规定限制,如只允许一个时间基准。
6.校验测试:检查MPEG的性能
MPEG执行校验测试来检查标准是否实现了它承诺的内容。测试结果可以在MPEG主页看到,http://www.cselt.it/mpeg/quality_tests.htm 。主要的结果如下面所述;更多的校验测试正在计划中。
6.1视频
一些MPEG-4功能已经通过主观测试得到了正式评估。编码效率虽然不是MPEG-4唯一的功能点,但也是MPEG-4的一个重要卖点,也得到了更加彻底的测试。同样抗错误能力也进行了严格的测试。而且也执行了可变性测试,对某个Profile还检查了时间分辨率稳定性。大部分测试只针对一个特定Profile。
6.1.1编码效率测试
6.1.1.1低比特率和中等比特率(第1版)
在这个测试中检查了基于帧的序列,以MPEG-1作为参考。(MPEG-2对于使用的渐进序列应该是相同的,但MPEG-1的效率略高一点,因为它的头信息消耗更少。)测试对CIF和QCIF分辨率使用了典型测试序列,对MPEG-1和MPEG-4使用同样的控制比例进行编码,比较编码算法(不考虑不同控制比例的影响)。测试从40KBPS的低比特率到768KBPS的中等比特率。
测试显示MPEG-4在低比特率和中等比特率编码条件下都对MPEG-1有明显优势,不管场景的临界程度如何。测试者一致认为MPEG-4明显占优,统计差距达到了1分(满分5分)。
6.1.1.2基于内容的编码(第1版)
基于内容的编码的检验测试比较基于对象编码和基于帧编码的视觉质量。主要目标是确认对基于对象编码的支持不会影响视觉质量。选择的测试内容覆盖了各种不同的模拟条件,包括各种类型运动和不同编码复杂度的视频片断。而且,测试条件覆盖了低比特率(256KB/S到384KB/S)和高比特率(512KB/S到1.15MB/S)。测试结果清晰显示,与基于帧编码比较,MPEG-4提供了基于对象的功能,而视觉质量没有任何降低或损失。在基于对象和基于帧之间没有明显的统计差别。所以结论是:MPEG-4可以提供基于内容的功能,而不会导致视觉质量的任何损失。
6.1.1.3高级编码效率(ACE)Profile(第2版)
对高级编码效率Profile进行了正式测试,以检查第2版中的三个新工具(全局运动补偿,1/4点运动补偿,形状自适应离散余弦变换,统称MPEG-4视频第2版ACE Profile)与第1版相比是否提高了编码效率。测试使用3个用例比较了ACE Profile和MPEG-4视频第1版主Profile的性能:基于对象的低比特率,基于帧的低比特率,基于帧的高比特率。结果显示ACE Profile与主Profile相比有明显优势,具体如下:
对基于对象的情况,ACE Profile以256KB/S得到的质量与主Profile以384KB/S得到的质量相当。
对基于帧的低比特率情况,ACE Profile以128KB/S和256KB/S得到的质量与主Profile以256KB/S和384KB/S得到的质量相当。
对基于帧的高比特率情况,ACE Profile以768KB/S得到的质量与主Profile以1024KB/S得到的质量相当。
看到这个结果的同时,还需要注意到MPEG-4主Profile已经比MPEG-1和MPEG-2更高效了。
6.1.2抗错误能力测试
6.1.2.1简单Profile(第1版)
MPEG-4简单Profile的错误恢复视频性能是通过一个主观测试检验的:模拟MPEG-4视频在多通道或无线电通道中以32 kbit/s到384 kbit/s之间的比特率传输。测试还模拟了高达10-3的进行通道编码之后的残余错误,平均的突发错误时间是大约10ms。测试方法是在3分钟内进行持续的质量评估。在测试中,测试者不断的纪录他们感受到的质量下降。结果显示在移动信道上得到的平均视频质量很高,错误的影响被MPEG-4视频工具有效的控制了。视频质量在错误过后很快恢复。这个优异的结果只用了很小的代价,少于MPEG-1和MPEG-2视频中典型使用的GOP结构。
6.1.2.2高级实时简单(ARTS)Profile(第2版)
MPEG-4 ARTS Profile中的错误恢复视频性能是在类似前一节的主观测试中检验的。(以32 kbit/s到128 kbit/s的比特率)。在这个用例中,进行通道编码之后的残余错误仍然是10-3,平均的突发错误时间是大约10ms(称为“严重”)或1ms(称为“非常严重”——这种情况更为严重,因为同样数量的错误比起“严重”情况来在比特流中分布更广。)
结果显示ARTS Profile比起简单Profile在两种错误情况下都有明显优势。更具体地说ARTS Profile从传输错误中恢复的时间胜过了简单Profile。而且ARTS Profile在“严重”错误情况下大部分时间里得到了接近完整的透明度,而简单Profile严重的被错误影响。这样优秀的结果只带来了很低的代价。快速的错误恢复在低延迟条件下提供了NEWPRED。
//译注:这里NEWPRED指“NEW PREDICTION”,参见9.5节
6.1.3时间分辨率稳定性测试
6.1.3.1高级实时简单(ARTS)Profile(第2版)
这个测试使用动态分辨率转换技术(实时调整分辨率来适应视频内容和环境)检验一个视频编码器。动态场景内容以64 kb/s,96 kb/s和128 kb/s数据率进行编码。结果显示,在64 kb/s下,ARTS Profile超过了96 kb/s下现有的简单Profile。而96 kb/s下视觉质量已经相当于128 kb/s下的简单Profile。(简单Profile已经强于现有的其他系统)
6.1.4可变性测试
6.1.4.1简单可变Profile(第1版)
对简单可变Profile进行的可变性测试是为了检验/比较简单可变Profile中时间可变性工具得到的质量、简单Profile中单层编码得到的质量、简单Profile中同步传播编码得到的质量。
在测试中使用到了4个比特率组合的5个序列:
1. 基础层24 kbps,改进层40 kbps
2. 两层都是32 kbps
3. 两层都是64 kbps
4. 两层都是128 kbps
正式的检验测试显示,在所有给定条件下,简单可变Profile中时间可变性编码显示了与简单Profile中单层编码相同或略低的质量。更明显的是它优于简单Profile中同步传播编码得到的质量。(同步传播必须同时以多个比特率进行广播或流传输)
6.1.4.2核心Profile(第1版)
我们设计了检验测试来评价核心Profile中MPEG-4视频时间可变性工具的性能。
测试使用了“单一刺激”方法。测试者需要使用或不使用时间可变性,评价压缩序列损伤的恼人程度。测试在两个不同实验室中对45人进行,结果显示使用和不使用MPEG-4视频时间可变性工具得到的序列编码质量相近。更明显的是核心Profile中MPEG-4视频时间可变性工具得到了比核心Profile中同步传播编码更好的质量。
6.2音频
MPEG-4音频技术由很多编码工具组成。检验测试集中在适用于一个应用领域的工具的集合,这样可以有效的比较。因为压缩是MPEG中一个关键能力,大部分测试比较相似比特率下的编码工具。测试结果按比特率从高到低显示。抗错误能力工具例外,它的性能会在这一节的末尾说明。
测试的主要目的是报告一个编码工具在特定比特率下的主观质量。大部分音频测试基于客观损伤程度得出报告:
5.0:无法察觉
4.0:能察觉但不影响
3.0:有点影响
2.0:影响
1.0:非常影响
这是一个连续的轴,其中有主观的刻度。
不同的MPEG-4编码工具性能如下表所示。为了更好的评价MPEG-4技术,测试里包括了一些MPEG-2和ITU-T编码器,它们的成绩也在下表中。表中相同测试的结果用粗线区分,这些结果可以直接比较。不同测试的结果不能比较,但是表明了特定比特率下一个编码工具的预期质量。
编码工具是在一个评估它们的强项的环境下测试的。MPEG-4音频编码工具的突出特性这里都简要提及了。
在对一段5声道材料以64 kb/s/channel (320 kbit/s)进行编码时,AAC主Profile被根据EBU定义评定为“区分不出来的质量(接近原音)”。在对一段2声道材料以128KBPS进行编码时,AAC主Profile和AAC低复杂度Profile被根据EBU定义评定为“区分不出来的质量(接近原音)”。
两个可变编码器,带AAC的CELP和带AAC的TwinVQ,表现都优于改进层比特率下的AAC“多播”。但是不如全比特率下的AAC编码器。
宽带CELP编码工具在只有语音的信号中表现优异。(测试结果包括语音和音乐信号)
比特切分算术编码(BSAC)提供了很细的比特率可变间隔。在比特率范围最高处它没有对应单一比率AAC的损失,但在范围最低处有轻微的损失。
对应普通AAC,低延迟AAC(AAC LD)提供了相等的主观质量,但是传输延迟极低,比特率只有少许提高。
窄带CELP,TwinVQ、谐音和独立线性加性噪声都可以提供很高的信号压缩。
抗错误能力(ER)工具在很大范围的通道错误条件下提供了相当好的抗错误能力,仅仅是提高了一点点比特率。测试结果表明在易出错的通道中随同音频编码系统使用ER工具取得了很好的性能,“几乎等同”于在一个流畅通道中运行的相同编码系统。
7.MPEG-4工业论坛
MPEG-4工业论坛是一个带着以下目标的非盈利组织:通过使MPEG-4在开发者、服务提供商、内容创作者、最终用户之间得到广泛的接受和使用,推广MPEG-4标准的应用。
下面是M4IF章程中关于运作方式的一段详细引用:
- M4IF的目的应当这样实现:促进MPEG-4,为MPEG-4提供有用信息,开发可用的MPEG-4工具或者给出如何获取工具的信心,创建一个关于MPEG-4的信息点,引导业界关注MPEG-4的应用。
- 目标应当通过参与各方的开放的、国际性合作来实现,以一种合理、统一、开放的方式。如果可以,M4IF将把活动成果贡献给适当的正式标准。
- M4IF的业务不能为成员的经济利益而开展,只能是成员们的共同利益。
- 任何支持M4IF的团体或个人、合作伙伴、政府实体、国际组织都可以申请成员资格。
- 成员不需要受限于实现或使用某个特定技术标准,或者因为参加M4IF得到的推荐。
- M4IF成员资格没有相关的授权要求,M4IF不会为MPEG-4技术设定任何授权条款。(但是,对于适合MPEG-4运作环境的授权模型的研究可以)
- 初始的会员费是每年2000美元。
M4IF的主页是:http://www.m4if.org
参与各方可以访问这个页面查找更多细节,也可以订阅公开邮件列表(一个信息列表和一个技术列表)。站点上也有关于正式加入论坛的所有信息。
论坛现在有接近90个成员,上百人订阅了邮件列表,包括了来自世界范围内下列行业的代表:消费电子,计算机,通信,研究机构。而且,一些成员是MPEG-4的商业客户。在现有参与者的列表中,有很多大大小小的公司开发或部署MPEG-4技术。MPEG的拥护者却不是成员,因为一些小公司发现难以达到MPEG的参与要求(各个国家不同),也因为一些公司不需要参与到这个开发阶段。
M4IF的活动从MPEG停止的地方开始。这包括了MPEG无法处理的问题,如根据ISO规定(专利许可证)。下面是M4IF当前活动的列表:
促进标准,作为MPEG-4技术、产品、服务的一个信息点;
在M4IF之外发起讨论,引导建立潜在的专利工具,并以明确的不受任何不公平竞争的合理的形式和条件授权给全世界无数的申请者;这项工作包括为可下载的软件解码器研究授权模型,例如因特网播放器;
组织MPEG-4展览和指导。第一个成功案例是2000年3月28日到3月30日在日内瓦的一个展览。这个展览展示了各种MPEG-4产品,从老公司到新公司,包括音频/视频播放器,授权工具,脸部动画,等等。
互操作性测试,可能会带来关于MPEG-4产品的认证。
M4IF参加者每年召开3次会议,在现在的起步阶段会略多一些。来自全世界的大约100人参加这些会议。以前的焦点是开发专利工具,但现在会转向互操作性测试。请到主页察看会议细节。