Overview of the MPEG-4 Standard Re-interpretation

同学要写毕业论文,请我帮忙翻译《 Overview of the MPEG-4 Standard》 。
先在网上搜了一下,发现有人做过了,不过不完整:
http://blog.csdn.net/gsping2000/archive/2005/01/18/258432.aspx
于是借用了这位兄台的劳动,然后继续翻译到了第4章。在此表示感谢!
其实我觉得论文翻译是个比较愚蠢的事情,很多东西难以用中文表达,看懂就好。
尤其是已经有人做过的时候,连重新发明轮子都算不上……
但是既然已经做了,就拿出来献丑吧。词不达意的地方,请各位看官不吝赐教。
e-mail: taoxianfeng@gmail.com


 

MPEG-4 标准概述

 

Executive Overview

MPEG-4是由MPEGMoving Picture Experts Group, 运动图像专家组)发布的ISO/IEC(国际标准化组织/国际电子技术委员会)标准,他们还发布了获得艾美奖(the Emmy Award,美国电视艺术和科学学会每年颁发给在电视节目上有突出成就者的奖项)的MPEG-1MPEG-2标准。这些标准使交互式视频在CD-ROM和数字电视上实现成为可能。MPEG-4是全世界数以百计的研究人员和工程师努力的结果。 MPEG-4(在ISO/IEC标准中命名为ISO/IEC 14496)于199810月定稿并于19991月成为国际标准。MPEG-42版(完全向下兼容的扩展)于1999年末定稿, 并于2000年初正式成为国际标准。个别领域的扩展工作仍在进行中。  

MPEG-4在以下三个领域证明是成功的:

  • 数字电视;
  • 交互式图像应用(合成内容);
  • 交互式多媒体(万维网,内容的分发与访问)

MPEG-4提供了标准化的技术要素,在这三个领域支持制造、分发、内容访问范式的整合。

更多关于 MPEG-4的信息可以访问MPEG的主页(大小写敏感):http://www.cselt.it/mpeg。网页里有大量关于MPEG的信息的链接,包括关于MPEG-4的许多公开文档,大量常见问题与回答(FAQ)的列表,以及其他MPEG-4页面的链接。可以从ISO购买这个标准,发送mailsales@iso.ch咨询。特别指出, MPEG-4第一版的完整软件CD,仅需56瑞士法郎。CD内容可以从ISO网站:www.iso.ch/ittf的“开放标准14496-5”处免费下载。使用这个软件来实现MPEG-4相关技术时是免费的。(但这并不是意味着软件专利也是免费的。请参考第7章,MPEG-4工业论坛)

本文档给出了一个MPEG-4标准的概述,讲述了它包含什么技术,这些技术支持了哪些应用程序。

 

/*********************目录***************************/

 

1. MPEG-4标准的范围和特征

MPEG-4标准提供了一系列的满足艺术创作者、服务提供商以及最终用户的技术。

  • 对于作者,MPEG-4使作者可以创作更具可重用性的作品,也比目前单独使用的技术更具灵活性,如数字电视、动画、Web页及其扩展技术。还有,它也可以更好地管理和保护作品的知识产权。
  • 对网络服务提供商,MPEG-4提供了透明信息, 在相应的标准的支持下能够解释、翻译成适应不同网络的本地信号信息。但是这并不包括对服务质量的考虑。对此MPEG-4对不同的MPEG-4媒体提供了一个统一的QoS描述符。MPEG-4并不负责精确的将每一种媒体的QoS参数集翻译成网络的QoS,这些事交由网络提供商去完成。
  • 通过MPEG-4媒体的QoS描述符端到端的发送信号可以优化异构网络中的传输。
  • 对最终用户, MPEG-4带来了更高水准的内容交互(在作者的设定范围内)。它也可为新的网络提供多媒体,包括比特率相对较低的网络或移动网络。MPEG主页上(www.cselt.it/mpeg)有MPEG-4应用文档,描述了许多最终用户应用,包括交互式多媒体广播和移动通讯。

对于以上各方,MPEG尽量避免带来大量的专利、非网络的文件格式和播放器。

为了达到这些目标,MPEG-4通过标准化的方式实现:  

1.表示听觉单元,视觉单元或视听单元的内容,即媒体对象。媒体对象可以是自然的或是合成的;也就是说它们可以由摄像机或麦克风记录或由计算机合成;

2.通过描述这些对象的组合形成更复杂的媒体对象,最终形成视听场景;

3.复用和同步承载媒体对象的数据,这样数据可以通过提供了适合于特定媒体对象的QoS的网络通道传输;

4.与在接受端生成的视听场景交互。

以下章节详细说明以上所述的MPEG-4功能,使用图1中所示的视听场景。

1.1 媒体对象的编码表示

MPEG-4视听场景是由多个媒体对象以层次结构组成的。在层次结构的末端是原子(基元)媒体对象。例如:

  • 静态图片(如固定的背景);
  • 视频对象(如一个正在说话的人,不包括背景);
  • 音频对象(如这个人发出的声音);
  • 等等。

MPEG-4 定义了一系列这样的原子媒体对象, 足以表示2维或3维的自然和合成内容类型。作为对以上提及和图1中所示的媒体对象的补充,MPEG-4还定义了这些对象的编码表示:

  • 文本和图像图形;
  • 用于语音合成和头部动画的说话头像及相关文字;
  • 合成声音

编码形式(已编码)的媒体对象由描述性的元素组成,这样可以根据需要在视听场景或相关流数据中处理媒体对象。值得注意的是,在编码形式下,每一媒体对象可以无关于周围对象或背景独立表示。

在实现预定功能的前提下,媒体对象的编码表示要尽可能高效。这些功能包括抗错误能力、便于解码和编辑、对象可调整等等。

1.2 媒体对象的组合

1展示了MPEG-4中的视听场景是怎样由独立的对象组成。图中显示了复合媒体对象由原子媒体对象聚集在一起形成。原子媒体对象在描述树中作为叶子而复合媒体对象则是子树。例如:一个表示说话人的视觉对象和相应的声音对象合起来形成一个复合媒体对象,包括这个人的视觉和听觉组件。

这种分组使作者可以创建复杂的场景,使使用者可以操纵有意义的对象(或对象集合)。

更一般的,MPEG-4提供了标准化的方式来描述一个场景,例如可以:

  • 在给定坐标系统内任意放置媒体对象;
  • 对媒体对象施加变换以改变几何造型或声学表现;
  • 组织原子媒体对象以创建复合媒体对象;
  • 把流数据赋给媒体对象来修改它们的属性(例如,一段声音;属于一个对象的运动纹理;操纵一个合成面部的动画参数)
  • 在场景中交互地任意改变用户的观察点或听点。

场景描述是基于虚拟现实建模语言中的几个结构和功能概念(关于对象组合节点),并且进行了扩展来支持前面提到的一些特性。

//译注:这里in terms of both its structure and the functionality of object composition nodes实在不好翻,可能不对

13媒体对象中流数据的描述与同步

媒体对象需要流数据,流数据是由一个或多个基本流传输的。对象描述符记录了与一个媒体对象相关联的所有流。这样可以处理层次编码的数据、与内容相关的元数据(“对象内容信息”)以及相关的知识产权。

每个流本身是由一系列包含配置信息的描述符表征的,诸如指定解码器的来源、编码时间信息的精度等等。而且,描述符还可能包括传输需要的QoS提示,如最大比特率、错误比特率、优先级等等。

基本流的同步是通过流内部的每个访问单元的时间戳实现的。同步层负责管理访问单元的辨识和加戳。它可以识别基本流中访问单元的类型(如视频或音频帧、场景描述命令)、恢复媒体对象或场景描述的基准时间以及进行同步,而不考虑媒体的类型。这个层可以以多种方式操纵修改,便于在多种系统中应用。

14流数据的传输

利用网络提供的不同QoS同步地传输流数据,是通过同步层和传输层(包括一个两层的复用器)来实现的,如图2所示。

第一个复用层是根据DMIF规范(MPEG-4标准的第6部分)来运作的。这层复用是通过MPEG定义的FlexMux工具实现的,支持基础流的聚集,也不会产生很高的复用消耗。例如,我们可以通过这个复用层把QoS需求相似的基础流聚成一组,减少网络连接的数量或端到端的延迟。

2中的传输复用层(TransMux)说明了这一层提供符合Qos需求的传输服务。MPEG-4只定义了这一层的接口,具体的数据包映射和控制信号必须与控制相应的传输协议的实体(接口实现)协同完成。任何现有的适当的传输协议栈,如(RTP/UDP/IP,(AAL5/ATM,或者通过相应链路层的MPEG-2传输流,都可以作为一个TransMux层的实例。最终用户/服务提供商可以自由选择,这样MPEG-4可以在各种不同的运行环境中广泛使用。

FlexMux工具的使用是可选的,如图2所示。如果下面的TransMux层提供了需要的所有功能,这一层可以为空。但是,同步层必须存在。

如图2所示的,我们可以:

  • 识别访问单元,传输时间戳和时钟引用信息,发现数据丢失;
  • (可选)从不同的基础流中向FlexMux流插入数据;
  • 传输控制信息;
  • 为每个基础流和FlexMux流指定Qos
  • 将这些Qos转换为实际的网络资源;
  • 将基础流关联到媒体对象;
  • 传输从基础流到FlexMux通道和TransMux通道的映射;

这其中部分控制功能只有在和传输控制实体(如DMIF框架)连接时才能使用。

15与媒体对象交互

通常来说,用户看到的场景是根据作者的设计构成的。但是,根据作者给予的自由度不同,用户也可以与场景交互。用户可能进行的操作包括:

  • 改变场景的观察点/听点,例如在场景中行走;
  • 将场景中的物体移动到另一位置;
  • 点击一个特定物体,引发一系列事件,例如开始或停止一个视频流;
  • 选择特定的语言(如果有多语言音轨的话);

还有很多复杂的行为可以触发,例如,一个虚拟的电话响了,用户接听,一个通信链路建立起来。

16知识产权的管理与识别

MPEG-4媒体对象中标识知识产权是很重要的。所以,MPEG在定义这方面的语法与工具时与很多文化创意产业的代表一同努力。对标识知识产权的需要的详细阐述可以在MPEG主页的公开文档“MPEG-4中的知识产权管理与保护”中找到。

MPEG-4通过储存唯一的标识符来实现知识产权标识,这是在国际标准编码中规定的(如International Standard Audiovisual numberInternational Standard Recording Code,等等)。这些编码可以用来标识媒体对象的权利所有者。由于不是所有内容都用这样的编码标识,MPEG-4版本1提供了使用键值对标识知识产权的方法。而且,MPEG-4为那些使用知识产权访问控制系统的人提供了一个紧密集成到系统层的接口。通过这个接口,访问控制系统可以很容易的与标准解码器合并到一起。

 

2.MPEG-41版的主要功能

这一章的内容是逐项说明最终的MPEG-41版各部分提供了哪些主要功能。

2.1 DMIF

DMIF提供下列功能:

  • 透明的MPEG-4 DMIF应用接口,不管是远程交互端、广播还是本地存储的媒体。
  • 控制FlexMux通道的建立
  • 在交互端之间使用同构网络,IPATMmobilePSTN,窄带ISDN.

2.2系统

如前所述,MPEG-4为音/视频信息提供了一系列高级压缩算法。编码后的数据流(基础流)可以独立的传输或存储,然后在接受端组合形成实际的多媒体信息。

MPEG-4的系统部分描述了组成一个场景的视听组件之间的关系。这个关系包括两个层次。

  • 场景的二进制格式(BIFS)描述了对象在场景中的时空排列。观察者可能与这些对象交互,例如重新排列它们或者在3D虚拟环境中改变对象自身的观察点。场景描述为2D3D组合操作符和图形基元提供了大量节点。
  • 在较低的层次,对象描述符(OD)定义了与每个对象相关的基础流之间的关系(例如,一个视频会议参加者的音频流与视频流)。OD还提供了附加信息,例如访问基础流的URL,解析基础流所需的解码器特性,知识产权等等。

MPEG-4还包括:

  • 交互性。其中包括:基于客户-服务器的交互;触发事件或用户动作路由的通用事件模型;在用户或场景触发事件时的通用事件处理和路由。
  • FlexMux工具,可以将多个流插入到一个流,包括时间信息
  • MPEG-4数据存储到文件中的工具(MPEG-4文件格式“mp4”)
  • java API形式为各种终端和网络提供的接口
  • 独立的传输层。映射到相关的传输协议栈(如(RTP/UDP/IPMPEG-2传输流)由相应的标准化组织完成。
  • 文字显示,包括多国语言支持,字体字型选择,定时和同步。
  • 接收端缓存的初始化和后续管理。
  • 时间标记、同步和恢复机制。
  • 与媒体对象相关的知识产权的标识数据集。

2.3音频

MPEG-4音频提供了大量应用程序,从可理解的语音到高质量的多声道音频,从自然的声音到合成音。特别是它还支持音频对象的高效表示,包括:

  • 语音信号:可以使用语音编码工具进行比特率从2 kbit/s24 kbit/s的语音编码。如果允许可变比特率,还可以使用更低的比特率,如12 kbit/s。通信程序可以达到很低的延迟。通过使用HVXC工具,音速和音高可以在播放时由用户控制。CELP工具可以变换播放速度,还有更多的工具用于音效处理。
  • 合成语音:可变比特率(从200 bit/s1.2 Kbit/s)的tts编码器可以使用文本作为输入生成可理解的合成语音。其中输入文本可以带有韵律参数(音高线、音素持续时间等等)。合成语音包括如下内容:
    1. 使用原始语音的韵律进行语音合成
    2. 带有音素信息的唇形对位
    3. 常用功能:暂停,继续,快进/回退
    4. 文本的多国语言和方言支持(例如,在比特流中可以用信号表示使用哪种语言或方言)
    5. 国际音素符号支持
    6. 支持指定说话者的年龄、性别、语速
    7. 支持传输面部动画参数
  • 通用音频信号:通过变换编码技术支持对普通语音进行各种不同比特率的编码。这样涵盖了多种比特率和带宽。
  • 起始比特率是6 kbit/s,带宽4khz以下,同时也包括单声道/多声道的广播质量音频。
  • 合成音频:通过实现结构化音频解码器来支持合成音频,包括乐谱控制信息、用特定语言描述的乐器等等。
  • 有限复杂度的合成音频:通过实现结构化音频解码器来支持对标准化波表格式的处理。

附加功能包括语音信号的速度控制、音高变换、比特率/带宽的增减、抗错误能力、复杂度等等,如下所述:

  • 速度控制功能支持在解码过程中调整时间,而不影响音高。这可以用于实现快进功能(数据库搜索)或者调整一段音频的长度以匹配给定视频,或者以较慢的播放速度练习舞步。
  • 可变音高功能支持在解码或编码过程中调整音高,而不影响时间
  • 可变比特率功能可以把一段比特流解析为更低比特率的流,并且仍然能编码为一个有意义的信号。比特流解析可以发生在传输时或者解码器中。
  • 可变带宽是比特率调整的一个特例,指的是一个比特流中表示特定频谱的部分可以在传输或解码过程中丢弃。
  • 可变编码复杂度支持编码器以不同复杂度生成有效、有意义的比特流。
  • 可变解码复杂度支持解码器以不同复杂度解析一段比特流。通常来说,音质与编码器/解码器使用的复杂度相关。
  • 音频特效提供了以完整时间精度处理解码后的音频信号的工具,可以实现混音、混响、空间化。

24视频

MPEG-4视频标准支持自然(基于像素的)图形图像和合成场景(计算机生成)的混合编码。例如,在视频会议中虚拟的表示一个出席者。这样,视频标准将提供工具和算法来支持自然(基于像素的)图形图像编码和合成2D/3D图形几何参数压缩(例如,压缩线栅参数,合成文本)。

以下各小节逐项说明MPEG-4视频标准的工具和算法支持的功能。

2.4.1支持的格式

MPEG-41版支持下列格式和比特率:

  • 比特率:5 kbit/s 10 Mbit/s
  • 格式:逐行/隔行视频
  • 分辨率:从sub-QCIF 到超过 HDTV

2.4.2压缩效率

  • 所有比特率都支持有效的视频压缩。其中包括纹理压缩编码,纹理的质量可选,从高压缩比的“可以接受”到“几乎无损”。
  • 2D/3D网格上的纹理映射提供有效的纹理压缩。
  • 随机访问视频,支持视频的暂停、快进、回退功能。

2.4.3基于内容的功能

  • 基于内容的图形图像编码,可以对任意形状的视频对象进行独立解码和重建。
  • 对视频内容的随机访问,支持视频对象的暂停、快进、回退功能
  • 对视频内容的扩展操作,支持对合成/自然文本、纹理、图像、重新构建的视频内容进行变换。例如在一个移动的视频物体前面投射文字,文字随着物体移动。

2.4.4纹理、图像、视频的复杂度

  • 可变编码器复杂度支持对一个给定纹理、图像或视频以不同复杂度生成有效的、有意义的比特流。
  • 可变解码器复杂度支持解码器以不同复杂度解析一段纹理、图像或视频比特流。通常来说,重新构建的质量取决于解码器使用的复杂度。这有可能限制较弱的解码器只解析比特流的一部分。
  • 可变空间分辨率支持解码器只解析编码器生成的整个比特流的一个子集来重新构建和显示(以较低的空间分辨率)纹理、图像、视频对象。对于纹理和静态图像,最多有11级空间分辨率。视频最多3级。
  • 可变时间分辨率支持解码器只解析编码器生成的整个比特流的一个子集来重新构建和显示(以较低的时间分辨率)视频。最多支持3级分辨率。
  • 可变质量支持将一个比特流解析为多个不同比特率的比特流层,这些层的一部分组合起来能够被解码为一个有意义的信号。比特流解析可以发生在传输时或解码器中。通常来说,重新构建的质量取决于用于解码和重建的层次的数量。

2.4.5形状编码和ALPHA通道编码

形状编码支持对普通图形图像、任意形状视频对象的描述和组合。这个二值形状图支持图像数据库中基于内容的图像显示、交互游戏、视频监控、动画等等。标准中提供了有效的算法,支持高效的二值形状编码。一个二值ALPHA图定义了一个像素是否属于某个物体,取值为'on''off'

灰度/ALPHA形状编码

一个ALPHA平面定义了某个物体的透明度,它可以不是均匀的。经常使用多级ALPHA图来混合不同的图像层。这个关联二值ALPHA图支持图像数据库中基于内容的图像显示、交互游戏、视频监控、动画等等。标准中提供了有效的算法,支持高效的二值/灰度alpha平面编码。一个二值alpha图定义了一个像素是否属于某个物体,取值为'on''off'。灰度图则支持定义每个像素的精确透明度。

2.4.6差错环境中的健壮性

错误恢复用于支持通过各种存储和传输介质访问图形图像。其中包括在差错环境中的低比特率图形图像压缩算法(如低于64 Kbps)。此外还有工具处理通过无线网络访问时的带宽受限和错误恢复。

2.4.7脸部动画

标准中的脸部动画部分支持传输对合成脸部进行校准和运动控制的参数。MPEG-4并不定义这些模型本身,而只是参数。

  • 脸部动画参数的定义与编码(模型无关):
    1. 控制脸部定义网格运动的特征点位置与方向
    2. 视位(与语音音素相对应的可视唇型定位)
  • 脸部动画参数的定义与编码(校准模型用):

1.    3D特征点位置

2.    动画的3D头部校准网格

3.    脸部纹理图

4.    个人特征

  • 面部纹理编码

2.4.8带隐式结构的2D网格编码

基于网格的预测和运动纹理变形

2-D Delaunay or regular mesh formalism with motion tracking of

animated objects

//译注:专业术语,虽然我也学计算机,但是在不知道,请高人指教

带动态网格的运动预测和暂停纹理传输

运动向量的几何压缩

带隐式结构和解码器重建的2d网格压缩

 

3.MPEG-42版的主要功能

//译注:第5章是专门的Profiles in MPEG-4,说明了Profile是什么意思,但是这个Profile怎么翻译,还有待考虑

2版于199912月定稿。第1版中现有的工具和Profile都没有变化。一些技术将会以新Profile的形式加入。下面的图3显示了两个版本的关系,第2版向下兼容第1版。第2版是以第1版为基础建立的。第2版的系统层向下兼容第1版。在音频和视频部分,第2版会加入一些新ProfileMPEG-4的工作并没有停止;我们会添加更多功能,特别是某些已经很完善的部分。同样,新的工具将会以新Profile的形式加入到标准中。现有的系统会保持兼容,因为原有的Profile不会改变。

3.1系统

MPEG-42版扩展了第1版,包含了诸如扩展BIFSjavaMPEG-J)支持。第2版还定义了一个存储MPEG-4内容的文件格式。这些内容将会在第8章详细介绍。

3.2视频

3.2.1自然(非合成)视频

MPEG-4视频第2版在以下部分加入了新技术:

  • 提高了基于对象的可变编码的灵活性
  • 提高了编码效率
  • 提高了时间分辨率稳定性,降低了缓冲延迟
  • 提高了抗错误能力
  • 多视角编码:基于多个图形图像的有效编码来支持中间视角和立体视角。例如通过减少不同视角的图像之间的冗余信息来对立体图形图像进行编码。

具体内容请参考第9章。

3.2.2肢体动画

2版在第1版中脸部动画的基础上加入了肢体动画。

3.2.3 3D多边形网格编码

MPEG-42版为3D多边形网格编码提供了一组工具。多边形网格编码作为3D物体的一种通用表示被广泛应用。其中包括的技术有:连通性,几何,以及阴影法线、颜色和纹理坐标等3D多边形网格的属性。

3.3音频

MPEG-4音频第2版是MPEG-4音频第1版的扩展。其中对MPEG-4标准加入了新的工具和功能,对第1版没有改动。新增的功能包括:

  • 提高了抗错误能力
  • 更高质量、低延迟的音频编码
  • 更细粒度的可变性(最低每个通道1 kbit/s的可变分辨率)
  • 参数化音频编码,支持低速的声音控制
  • CELP静音压缩,支持更低比特率的语音编码
  • 错误恢复参数化语音编码
  • 环境空间化-使用感知和/或物理建模技术重建声音环境
  • 一个后置通道,支持实时的调整编码或回放过程
  • 提供了一个低消耗的,MPEG-4音频专有的传输机制

请参考第10章,MPEG-4音频的详细技术说明

3.4 DMIF

DMIF2版的新特性包括支持移动网络和QoS监测。另外还有一些小的改动。

3.4.1支持移动网络

通过与ITU-T的协商,H.245规范进行了扩展(H.245v6)以支持MPEG-4系统。DMIF规范对H.245信号提供了适当的对应支持。移动终端现在也可以使用MPEG-4系统特性,例如BIFSOD流。不过有一些限制(MPEG-4显示是由目标端唯一选定的)。

3.4.2 QoS监测

DMIF2版提出了对一个网络提供的实际服务质量进行监测的概念。DMIF应用接口也随之扩展。它支持3种模式的QoS监测:持续监测,特定请求,QoS违反提示

3.4.3 ACK信息的用户命令

DMIF模型允许终端程序交换任何类型的用户信息(包括流控制信息)。DMIF2版加入了对响应信息的支持。

3.4.4管理MPEG-4同步层信息

DMIF2版支持应用程序通过DMIF层交换程序特定信息。这个改进是为了在模型内部把同步层协议数据单元当作纯媒体数据和逻辑同步层信息的组合进行交换。如果现有传输栈的某些特性覆盖了MPEG-4系统同步层,模型会发出提示。例如RTPMPEG-2 PES(打包的基础流)和文件格式中的mp4基元。在这些例子中,

DMIF实例的实现都是为了把从那些结构或纯粹的SL-PDU中取出来的同步层信息映射到同步层数据包头部的一个统一的逻辑表示。结果,DAI中就引入了适当的参数,以便使它们的语义与传输栈和应用程序无关。

3.4.5 c语言的DAI声明

DMIF2版包括一个附录,给出了DMIF应用接口的C/C++声明作为一个推荐的API声明。

4 MPEG-42版之后的扩展

运动图像专家组正在开发第2版的一系列扩展,包括视频和系统方面。没有投入对DMIF和音频第2版的扩展。

4.1视频

在视频部分,下列技术正在添加过程中:

细粒度的可变性正在投票阶段,同时还提出了“流媒体Profile”(‘Advanced Simple’和‘Fine Grain Scalability’)。细粒度可变性是支持通过加入或删除额外的信息层来微调质量的工具。它在很多环境中都很有用,特别是用于流和在广播环境下对预编码内容的动态(统计的)复用。

在工作室中使用MPEG-4的工具。对这些工具,我们特别作了改动以兼容MPEG-2标准。现在,简单工作室Profile正在投票,这是一个使用形状编码的极高比特率(上百Mbits/sI-frame编码Profile。之后还会添加带有I-frame/P-frame的核心工作室Profile

数字影院正在研究之中。这个程序将实现真正的无损编码,而不是现在MPEG-4提供的视觉无损(看上去)。初步的提议已经于200010月提交。

4.2系统

4.2.1高级BIFS

提供新的节点来在场景中监视可用媒体和管理媒体,例如向服务器发送命令,媒体播放的高级控制,还有所谓的EXTERNPROTO,与VRML更好的兼容的节点,支持编写宏来定义物体的行为。还包括了BIFS数据的更高压缩,特别是网格和数组的优化压缩。

4.2.2文本格式

扩展MPEG-4文本格式(XMT)是一个使用文本语法表示MPEG-4场景描述的框架。它使内容作者可以与其他作者、工具/服务提供商交换内容。还提供了对Web3D Consortium提出的可扩展3DX3D)和W3C Consortium提出的同步多媒体集成语言的互操作性(交互)。

XMT可以与SMIL播放器,VRML播放器,MPEG-4播放器互换。这个格式可以由一个W3C SMIL播放器直接解析和播放,由Web3D X3D进行预处理,由VRML进行播放,或者编译成MPEG-4形式(如mp4),然后由MPEG-4播放器播放。下面是对XMT互操作性的图形说明。它包含了MPEG-4,大部分SMIL,可升级矢量图像,X3D,还给出了对MPEG-7的一个文字表述(参考www.cselt.it/mpeg上关于MPEG-7内容描述标准的文档)。

XMT框架包括两层文本语法和语义:XMT-A 格式和XMT-Ω 格式。

XMT-AMPEG-4内容的基于xml的版本,包括x3d的一个子集,还有一个MPEG-4x3d支持扩展,用于表示MPEG-4的某些特征。XMT-A在文本和二进制格式间提供了一个直接的、一一对应的映射。

XMT-Ω是对基于W3C SMILMPEG-4特征的高层抽象。XMT提供了一个从ΩA的默认映射,因为二者之间并没有一个确定的映射。它也为内容作者提供了一个从ΩA的返回机制。

4.2.3高级同步模型

高级同步模型(通常称为FlexTime)支持对来自多个采用不同基准时间的源的对象进行同步。FlexTime模型使用了一个灵活的、基于约束的时间模型来规定时间。在这个模型中,媒体对象可以通过使用关系约束(如"CoStart""CoEnd""Meet")在时间图中连接到一起。而且,为了在这些约束范围内有一点灵活性,每个对象可以通过应用特定的拉伸/收缩模式参数来得到一个弹性的时长。

FlexTime模型基于一个所谓“弹簧”的隐喻。一个弹簧有三个常值:不能再缩短的最小长度,不能再拉长的最大长度,还有不加外力时的正常长度。按照这个弹簧模型,媒体对象的播放可以视为一个弹簧,一组播放时长对应这三个弹簧常数。最优播放时长(正常弹簧长度)可以看作作者为这个媒体对象选定的播放时长。在可能的情况下,播放器应该使播放时间尽量接近最优播放时长,但是可以在作者规定的最小和最大时长之间任意选择。注意,拉伸/收缩连续媒体(如视频)的时长意味着相应的降低或提高播放速度。而对于离散媒体(如静态图像),拉伸/收缩会轻微的缩短/延长渲染时间。

4.2.4 2D/3D动画

200010月被提出之后,2D/3D动画编码正在基于收到的回复进行研究。相关工作正在与Web3D Consortium共同进行。

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值