沉浸式媒体标准调研

一、沉浸式媒体介绍

沉浸式媒体(Immersive Media),即结合虚拟现实技术、数字孪生技术等,联通视觉、听觉甚至是触觉、嗅觉,为受众打造第一视角的沉浸式体验,获得虚实相生、身临其境的感受和体验。沉浸式媒体的诞生,经历了采集、拼接、压缩、处理、传输、渲染、投影以及交互等环节,其应用场景十分广泛,除了沉浸式娱乐、文旅体验,在智慧教育、医疗军事、城市交通等都存在着巨大的应用前景,而国内外对于多模态融合、虚拟现实、虚拟视点合成等关键技术都关注颇多。我国在“十三五”规划中首次提及虚拟现实,“十四五”中列为数字经济重点产业。本文主要针对沉浸式媒体相关标准进行一个简要的调研和总结,希望能够为相关科研和行业工作者提供微薄的帮助。

根据MPEG面向沉浸式视觉体验的标准化活动相关资料,沉浸式视觉媒体在物理属性上需要达到:宽视场(360°全景视频)、宽色域、高动态范围、高时间分辨率(120Hz及以上)、高空间分辨率(4K、8K及以上)、多视点多自由度。
在这里插入图片描述

其中,按照多自由度,可以将沉浸式视觉体验技术划分为四类:3DoF、3DoF+、windowed-6DoF和6DoF,其观看模式形式如图所示。
在这里插入图片描述

1. 3DoF

3自由度(3DoF)媒体内容格式,又称为全方位媒体格式(OMAF),简单来说,就是固定视点的360°全景视频技术。如图片所示,观众坐在椅子上不允许移动,可以沿三个坐标轴进行眼睛转动或者头部转动。
3DoF视频也称为全景视频(panoramic video),为了便于存储和传输,一般会将它投影至平面,最后在观看端进行重建。球面与平面之间的投影关系在IEEE 1857.9中有较为详细的解释,示例图如下:
在这里插入图片描述
针对3DoF视频的投影方式有很多(但是毕竟不是球形空间直传,会存在各种各样的投影失真),最常用的一般是ERP格式。还有其他的投影格式,来源于论文《An Overview of Panoramic Video Projection Schemes in the IEEE 1857.9 Standard for Immersive Visual Content Coding》,画的非常漂亮:
在这里插入图片描述

2. 3DoF+

观看3DoF+内容时,观众同样是坐在椅子上,但是各个坐标轴增加了一定的自由移动距离,可以进行移动而非固定在某一个位置,由于包含一定的深度信息,因此也会带来双目立体视差以及运动视差,更符合人类感知场景的真实体验。
3DoF+的合成需要大量的源视图,按照MPEG征集3DoF+和6DoF测试内容的要求,需要来自两个或多个摄像机同时拍摄包含纹理和深度信息的360°×180°的视频/图像,帧率应为30或60或90fps。
在这里插入图片描述

3. windowed-6DoF

windowed-6DoF是从3DoF向6DoF过渡的中间产物,它模拟一个人站在窗前面,能够在窗前面自由移动,但是没办法把头伸出窗外观看,观众的运动范围是受限的,在三个坐标轴上的移动也是受限的。
因为观众被给予了一定的主动探索的能力(在3DoF中,观众是被动被迫跟随着拍摄者的镜头进行观看),而摄像机的数量是有限的,无法覆盖方方面面的观看角度、距离,因此windowed-6DoF内容不仅包含直接拍摄的真实视图,还包含了渲染生成的虚拟视图,可以参考下图,其中V1 V3 V5是真实视图,V2 V4是虚拟视图。
在这里插入图片描述在这里插入图片描述

4. 6DoF

完全6DoF是研究的最终目标,即让观众在戴上头显之后,能够随心所欲、不受限制自由移动,这就有点类似于以真身进入元宇宙。根据已有的资料,6DoF视频由四种采集方式,分别是在某条路径上多相机进行捕获;光场采集;多高清摄像机集成并点云重建;二维摄像机阵列采集,具体采集模式可以参考下图。
在这里插入图片描述

二、标准制定组织/机构介绍

凡事都有规矩。纵使工业界、学术界有千千万万的方案成果,研读权威机构出版的标准建议,仍然是快速把握现行技术和未来发展方向的有效路径。在通信及视音频领域,对学界和业界产生较大影响的国际标准制定组织,如ISO/IEC MPEG、ITU、AVS工作组以及IEEE标准协会。同时,立足我国现行政策和商业模式,我还对国标、行标进行了简单的调研和分析。下面主要针对部分标准制定组织/机构进行简要介绍。

1. ISO/IEC MPEG

运动图像专家组(Moving Picture Experts Group, MPEG) 是由国际标准化组织ISO和国际电工委员会IEC联合建立的工作组联盟,为媒体编码制定标准,包括音频、视频、图像和基因组数据的压缩编码标准、各种应用程序的传输标准以及文件格式标准。
MPEG-I是为虚拟现实和增强现实应用程序开发的全新标准,旨在创造自然、逼真的VR体验,并提供视听完整的感知效果。其中,沉浸式视频(MPEG Immersive video, MIV)标准是MPEG-I的一部分,以沉浸式视频内容(也被称为体积视频,volumetric video)的压缩为主要特点,支持在现有和未来网络上存储和分发沉浸式视频内容,以便在有限的观看空间以6DoF的观看位置和方向进行播放,并根据拍摄设置获得不同的视野。与平面全景2D视频相比,MIV格式视频内容拥有更卓越的视觉舒适度和沉浸感。
在这里插入图片描述

2. AVS工作组

数字音视频编码技术标准工作组(The Audio Video Coding Standard, AVS) 由国家原信息产业部科学技术司于2002年6月批准成立,工作任务是:面向我国的信息产业需求,联合国内企业和科研机构,制(修)定数字音视频的压缩、解压缩、处理和表示等共性技术标准,为数字音视频设备与系统提供高效经济的编解码技术,服务于高分辨率数字广播、高密度激光数字存储媒体、无线宽带多媒体通讯、互联网宽带流媒体等重大信息产业应用。AVS3是AVS工作组制定的第三代音视频编解码技术标准,也是全球首个已推出的面向8K及5G产业应用的视频编码标准。目前已经应用于冬奥、世界杯直播转播,中国移动咪咕公司首发AVS3移动端规模化商业版本咪咕视频6.0.7.00,展现了极具潜力的应用前景。
**目前AVS标准对于6DoF也已经有了明确的研究进展。 ** 在标准文档方面,AVS 6DoF标准文档 WD1.0已经完成;在测试用例方面,已经拥有两段20s/30个相机的纹理图+深度图的6DoF的测试用例;在参考软件方面,AVS标准已经将6DoF视频在手机端重建的软件标准化,并完全开源等等。

3. ITU

国际电信联盟(The International Telecommunication Union, ITU),简称“国际电联”、“电联”,是联合国的一个重要专门机构,主观信息通信技术,负责分配和管理全球无线电频谱与卫星轨道资源,制定全球电信标准等。与视音频技术打交道的朋友们都对这个机构非常熟悉,而针对相关领域制定标准建议书的主要是两大部门,分别是无线电通信部门(ITU-R)标准化部门(ITU-T)
ITU-R研究组为世界无线电通信大会所作的决定制定技术基础,该大会负责制定《无线电规则》,即规范无线电频谱和卫星轨道使用的国际条约。ITU-R的成果还涉及解决不同无线电业务之间的干扰问题,并且对新的无线电技术进行描述说明。经成员国同意,一些《无线电规则》引证归并的ITU-R建议书具备约束力。ITU-R和ITU-T各研究组均制定国际技术标准,通常被称作国际电联建议书。这些标准可自愿遵守,但国内法律或法规或《无线电规则》要求遵守的除外。

4. IEEE标准协会

IEEE标准协会(IEEE Standards Association) 隶属于电子电气工程师学会(The Institute of Electrical and Electronics Engineers, IEEE),其标准制定内容涵盖信息技术、通信、电力和能源等多个领域,与多个国际标准组织和国家标准机构建立了战略合作关系,包括国际电工委员会IEC,国际标准化组织ISO、国际电信联盟ITU等。本文将对面向沉浸式视觉内容编码的IEEE标准进行分析。

三、沉浸式媒体编解码、主客观质量评价标准

由于本人研究方向是视音频质量评价,因此沉浸式媒体标准调研主要围绕沉浸式视音频编码和质量评价标准展开,并尽可能与学术研究相关联,如有总结分析不到位的地方,欢迎各位指出,我也多多学习,整理吸收。

1. ISO/IEC 23090: MPEG-I 项目及MIV

关注于沉浸式视频编码表示的MPEG-I 项目(ISO/IEC)第二部分Omnidirectional Media Format的内容发布于2018年,用于支持3DoF。由于3DoF支支持头部转动,当观看对象距离观众较近转动时,可能会造成观众产生不适感,而6DoF在3DoF基础之上,还支持水平、垂直和深度方向进行平移移动(traslation movement),给予观众视差感和体积感。因此在ISO/IEC 23090-12 Immersive Video(MIV)中对有一定限制的windowed-6DoF相关材料进行了征集。在后续的MPEG会议中,基于视频的点云压缩标准(Video-based Point Cloud Compress, V-PCC)和视觉化体积视频压缩标准(Visual Volumentric Video-based Coding, V3C)。
(因为没money买原始标准书,所以扒拉网上现有公开的资料)
MIV的介绍、使用场景、样本数据集(非MPEG成员要有许可才能下载)、相关的文档及Demo可参考对公众开放的网站:https//mpeg-miv.org

沉浸式视频内容测试材料简介:
包含带有深度估计的计算机生成内容和自然拍摄内容,并分为8类,每个类别下会有1-3条测试序列,类别可以简单描述为:全向场景×球形相机(ERP格式),全向场景×半球形相机(ERP格式)、半全向场景×半球形相机(ERP格式)、摄像机阵列拍摄场景(自由视点内容)、线性排列摄像机系统拍摄场景(自由视点内容)、会聚镜头拍摄场景(自由视点内容)。

压缩效率评估及主客观测试使用的软件工具参考:

  1. VVC的VVenC用于实现所有的锚点,采用基于VVC测试模型的专家模式(vvencFFapp),随机接入“慢速”配置,配置文件附加在TMIV软件中。
  2. 基于PSNR、适用于沉浸式视频的IV-PSNR,考虑了全向视频中像素的位移和全局颜色的改变,用于全参考客观质量评价方法。
  3. 沉浸式视频深度估计IVDE用于从多个视角或全向相机获得的视图中创建6DoF场景表示的几何数据。

2. IEEE 1857.9: 面向沉浸式视觉内容编码IEEE标准

此标准的目的是为压缩、解压缩和重建沉浸式视觉内容提供高效编码工具集,参考文献包括上面提到的ISO/IEC 23090。其中,沉浸式视觉内容包括不限于全景视频、自由视点视频、光场、3D模型和其他综合视觉内容,目标程序和服务适用于包括但并不限于VR、AR、全景视频、自由视点电视、全景立体视频等其他视听应用场景。IEEE 1857.9是开放下载的,也是我目前找到的针对沉浸式视觉内容定义和投影方式介绍得比较详细和完整的标准书。其中值得关注的地方包括:

  • 全景视频(3DoF视频)编码表示和重建方案
  1. 针对ERP、CMP(示例图如下)等投影与重建进行了介绍和代码呈现。
  2. 在ERP格式的基础上,提供了一个用于3D全景视频的双目立体ERP方案,需要拼接同时拍摄的两张半球形投影到ERP平面格式的图片。
  3. 针对ERP格式在两极区域的严重拉伸变形的失真特点,提供了一个等面积两极正方形投影(Equal area bipolar square projection),简单来说,就是将球形分为三个区域,其中极点附近的两大区域投影为方框嵌套得出的正方形,赤道附近区域通过ERP格式投影为矩形,在将两者拼接为长条形状。虽然一定程度上能够获得更均匀的采样密度,但是在正方形和矩形的交界处像素值不连续,经过重建后可能会出现色带。
ERPCMPEqual area bipolar square projection
在这里插入图片描述在这里插入图片描述在这里插入图片描述
  • 自由视点视频(6DoF视频)编码表示和重建方案
    6DoF视频也称为自由视点视频(free-view video),是通过多摄像机对同一三维场景进行同步采集的视频的集合。为了便于存储、压缩和处理,标准通过结合多视点纹理图、多视点深度图和元数据,提出了一个小型的表示模型。其中元数据包含多摄像机参数、深度图分辨率、纹理图和深度图的拼接方法、边缘保护信息(edge protection information)、多视点背景纹理及深度图等。示例图如下:
    在这里插入图片描述
    在这里插入图片描述

3. ITU相关建议书

ITU作为行业杠把子,几乎每篇和视音频相关的论文都或多或少会引用一二。其中,ITU-R BT.500《电视图像质量的主观评定方法》和ITU-R BT.1788《对多媒体应用中视频质量的主观评估方法》仍然被大部分主观质量评价建库作为参考标准,并没有专门针对沉浸式视觉内容主观质量评价开发的方法标准。这里我不再介绍上述两个经典文件的内容,主要关注ITU-T G.1035《影响VR服务质量的影响因素》。
虚拟现实(Virtual Reality, VR),是一种使用游戏引擎(如Unity)是生成能使用户在6DoF进行交互的虚拟环境。在设备上,一般包括头戴式显示器(嵌入眼动追踪装置、音频播放器)、声卡、无线装置等等。在播放内容上,分为计算机合成视频和由360°摄像机拍摄的真实视频。在VR服务分类上,分为弱互动VR(weak-interaction VR)和强互动VR(Strong-interaction VR),前者基本只能转动头部观看,后者还能使用互动设备与场景内容交互。
由于VR与传统视音频有很大的区别,它能够给体验者提供极具临场感的图像、音频和其他感知效果,并且能够通过体验者的反馈和互动进行个性化变换。VR服务质量的好坏,直接影响了用户的感知体验,因此相应的VR QoE评估标准是必不可需,而该标准主要对影响VR感知体验质量QoE的因素进行了预先分析和总结,其总结图如下:
在这里插入图片描述
可以看到,文档中将影响因素围绕用户、系统、内容分为了三大类,我在上图的基础上,根据我的理解翻译一下:

  • 用户:视力和听力、晕动症程度、达到沉浸感的难易程度、对VR的期待值和经验度、人文背景、情绪反应。
  • 系统:内容相关(空间音频呈现、空间深度呈现、时空复杂度呈现)、媒体/编码器相关(压缩、传输、存储、比特率、分辨率、帧率、音频采样率、编码时延)、网络/传输相关(传输时延、带宽、丢包损失)、硬件相关(头显、脑机、解码器、头部追踪装置、视野设置、显示器分辨率、刷新率)
  • 内容:物理特性呈现、时间特性呈现、社会环境(例如VR普及程度)、任务特点(例如用户对流媒体VR没有对VR游戏那么有耐心)

4. 广电总局发布的计划和行标

我国一直对科技事业十分重视,视听信息技术走在世界前列,视听行业市场规模庞大、充满潜力。在 《虚拟现实与行业应用融合发展行动计划(2022-2026年)》 中,明确指出了为深入贯彻十四五规划和远景目标,到2026年,实现三维化、虚实融合沉浸影音关键技术重点突破,丰富新一代适人化虚拟现实终端产品,完善产业生态,形成规模化应用和若干骨干企业产业集群,达成技术、产品、服务和应用共同繁荣的产业发展格局。其中提及的关键技术包括近眼显示、渲染处理、感知交互、网络传输、内容生产、压缩编码以及安全可信技术等。广电现行的国标中,还未有对沉浸式视觉内容进行规范的标准。行标** GY/T 356-2021《VR视频系统节目制作和交换用视频参数值》** 对3DoF VR视频系统节目制作和交换基本参数进行了标定,包括图像空间和时间特性、色彩系统、信号格式等。
值得注意的是,映射后图像的有效像素数虽然要求是达到30K×15K(基于人眼空间角度锐度设定),但实际设计时,要求不低于8K(7680×3840),从而使终端用户在100°左右视场中观看图像时不易于感受到屏幕像素结构。
另外,投影方式采用的是ERP格式,样本位置的角坐标与平面坐标的映射关系如下图所示:
在这里插入图片描述
此外,还有对立体声和环绕声进行标定的 GY/T 362-2022《立体声和环绕声音测试序列》 ,考察立体声项目主要包括不同人声、不同乐器声、合奏声、体育比赛、其他(鼓掌、礼炮、直升机飞过),考察环绕声项目主要包括合奏声、体育比赛、其他(掌声、回声、嘈杂路口、礼炮、直升机飞过)。可以根据这种分类进行视听分析。

四、相关领域行业分析报告

对于我国相关领域的知名企业和咨询公司也小做了调研(专业的和业余的在根本上有区别哈哈哈 ),互联网大厂相关的实验室我也遛了一圈,可惜实验室工作范围比较广,没能获取到特别专一而精辟的内容,下次调研会再细致地挖掘一下。

1. 2019-5GCloudVR业务标准白皮书

该白皮书由华为SmartCare和CLOUD开放实验室联合发布,主要对Cloud VR业务(包括Cloud VR视频和Cloud VR游戏)体验建模技术进行介绍,从媒体质量指数MQI、交互质量指数IQI和呈现质量指数PQI对用户体验进行综合打分。其中MQI重点关注比特率、帧率、分辨率、视场角、每角度像素数;IQI重点关注运动到画面时延、自由度;PQI重点关注加载时延、卡顿、跳帧、花屏。
给出的体验综合得分公式如下:
在这里插入图片描述

2. 2019-虚拟现实(VR)体验标准技术白皮书

该白皮书核心贡献单位为华为X Labs实验室和西安电子科技大学多媒体实验室,组织单位涵盖多所信息技术领域企业和知名院校,对VR体验关键影响因素进行了研究,并构建评估模型框架。评估模型从视听沉浸体验质量、观看体验质量和交互体验质量的角度,对分辨率、帧率、码率、FOV、MTP、自由度等20多个指标进行定义、建模和量化,为满足运营商、设备制造商、内容提供商等在不同层面、不同角度的体验评估需求,提供不同的评估模块。沉浸体验质量兼顾了视频质量、音频质量和视听同步的影响作用三个方面。观看体验质量定义了视听连续性、视听完整性。交互体验质量主要对空间层面的自由度和时间层面上的特性进行了评估。里面的计算公式颇多,还没有来得及仔细学习,后续如有启发,会再次更新。

3. 艾瑞咨询:2023年中国增强现实(AR)行业调研

感觉自己总结的没有专业的精炼,索性放个图在这里~
在这里插入图片描述

五、总结

内容有点多,但希望逻辑还算清楚。总的来说,感觉对于沉浸式媒体的标准还不是很多,现有的标准也不是很成熟,或许是因为这个领域还方兴未艾,各行各业都有新技术、新思想出来。不过也不能把标准作为达摩克斯之剑,墨守成规,固步自封,标准中空白的领域正是我们需要探索和挖掘的。如果各位有更多的新颖有趣的见解,欢迎评论区留言,有新的资料信息,也欢迎在评论区分享!

六、参考的网页链接如下:

  • https://mpeg.chiariglione.org/standards/mpeg-i
  • https://cloud.tencent.com/developer/article/1453576
  • https://blog.csdn.net/weixin_44730165/article/details/112862487
  • https://zhuanlan.zhihu.com/p/87023045
  • https://blog.csdn.net/u014184853/article/details/85304989
  • https://analyticsindiamag.com/meta-releases-hyperreel-for-high-resolution-3d-experience/
  • http://www.avs.org.cn/
    注意:参考的标准文档在页面对应位置已有说明
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

月婵婵

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值