互动场景下的低延迟编码技术

最新推荐文章于 2023-03-05 19:53:28 发布

LiveVideoStack_

最新推荐文章于 2023-03-05 19:53:28 发布

阅读量3.5k

点赞数 5

文章标签：大数据编程语言 python 人工智能 java

本文链接：https://blog.csdn.net/vn9PLgZvnPs1522s82g/article/details/107649837

版权

本文由上海交通大学教授宋利在LiveVideoStackCon2020线上峰会的演讲内容整理而成，从分析视频传输系统延迟入手，详细介绍视频编码延迟的产生机制，总结优化编码延迟的技术手段和业界典型的低延迟编码方案，讨论不同场景的延迟要求，并对后续技术演进发展方向进行展望。

文 / 宋利

整理 / LiveVideoStack

本次分享的主题是互动场景下的低延迟编码技术，内容分为四个方面：一是互动媒体服务；二是低延迟视频编码技术；三是低延迟编码方案；四是应用场景和发展趋势。

PART

互动媒体服务

1.1 视频媒体形态

如图所示，我们将现有典型的视频相关服务按照高通量、强交互两个维度进行划分，其中横坐标表示高通量，纵坐标表示强交互，一些典型的视频映射到图中分布于不同的位置。

左下角部分可以称为基本视频，它涵盖了当前的一些主流应用，包括TV、视频监控、视频会议以及多人视频游戏等，其特点是以二维视频为主，同时交互形式包括单项、双项和多人交互。

如果从这个区域往外扩展，外面一层是可以称之为增强视频，沿高通量维度由高清向超高清、自由视、点云、光场过渡，交互维度包括仿真训练、电竞，两者都演进的方向是VR、AR，最后演进到全触感，也就是视频媒体形态正在由基本视频向增强视频演进，这两个维度某种程度和现在5G中两个维度很契合，高通量对应大带宽，强交互对应低延迟。

这张图显示了流媒体视频的典型服务场景，流媒体服务经过多年的发展，现在已经形成一个比较完整的技术和生态链，从源端、云端、边端到终端，包括背后的技术体系也相对比较趋同。现在经常使用的是以RTMP代表加H.264进行源端的推流，到CDN边缘上通过265，包括下行的HLS协议转换，形成流媒体服务的基本流，然后用户侧通过播放器从源端进行拉流，获得流媒体直播的体验。这套架构基本上比较成熟和完善，各家公司的竞争点主要体现在用不同的编码器进行替换，不同上下行协议的改造，以及CDN资源的部署，以此获得竞争优势。从整个媒体服务形态变化的角度看，大部分的努力是针对前面提到的通量这个维度。

图中展示了流媒体实时交互演进的一个典型示例，在直播场景下，通过手机小屏发出交互指令，可以在大屏播放时产生交互的反馈，获得一些个性化的体验；比如在下行过程中发起用户指令，叠加符合正在播放内容的、个性化渲染特效。在这种场景下，整个流媒体架构就会发生变化。在此之前是在云端、边端进行处理，与终端并没有太多交互，技术要素变化不大；但是增加互动维度后，在边缘侧就可以引入很多新的要素。

1.2 系统组成要素

构建一套实时的流媒体系统需要对系统中多个方面进行改进，除了视频编码标准外，媒体传送协议和视频渲染技术都需要实时化和低延迟处理。视频编码方面，低延迟编码技术可以和多种编码标准进行结合。

1.3 互动媒体服务系统的权衡

互动媒体服务系统与单点技术不同，需要考虑多方面因素的权衡。首先要满足低延迟，否则影响互动效果。其次是高体验，互动媒体是在现有媒体上叠加的效果，所以体验是也应该是叠加式的，不能因为互动而使原有基础视频的画质下降。最后是用户的大规模，与视频会议系统不同，一场会议很少会出现超过千人级的规模，但在互动流媒体场景下，由于接近直播流媒体，它的用户数量会比较多。<