阿里云窄带高清的演进与思考

最新推荐文章于 2022-07-04 17:33:27 发布

LiveVideoStack_

最新推荐文章于 2022-07-04 17:33:27 发布

阅读量973

点赞数 1

文章标签：大数据编程语言计算机视觉机器学习人工智能

本文链接：https://blog.csdn.net/vn9PLgZvnPs1522s82g/article/details/115986118

版权

摘

要

窄带高清实际上是一套以人眼的主观感受最优为基准的视频编码技术，研究的是在带宽受限的情况下，如何追求最佳的视觉感受。今天我们请到了来自阿里云智能视频云的王豪老师，他将与我们分享窄带高清是什么、现在的窄带高清主要关注哪些内容、以及未来的布局是什么。

演讲 / 王豪

整理 / LiveVideoStack

大家好，我叫王豪，来自阿里云智能视频云。我现在主要负责视频编码和增强。我们团队一直关注视频编码和处理方向的进展及其技术前沿工作。今天和大家分享的是我们在窄带高清方面的进展和思考，希望能与大家一起探讨。

我今天重点要讲的是三个部分：窄带高清是什么、关于现在在窄带高清方面关注哪些内容、以及关于未来的布局是什么。

阿里云的窄带高清

1.1 窄带高清技术

窄带高清是阿里云视频云的技术品牌，是属于内容自适应编码里的。窄带高清是一个修复增强+压缩的问题，主要目标是追求质量、码率、和成本的最优均衡。在这个方向我们有两代不同版本。

第一代是均衡版，主要作用是如何用最少的成本去实现自适应的内容处理和编码，达到质量提升同时节省码率的目的。所以，我们在窄高1.0充分利用编码器里的信息帮助视频处理，即成本很小的前处理方法，从而实现低成本的自适应内容处理和编码。同时，在编码器里，主要时间是基于主观的码控。

窄高2.0和窄高1.0相比会有更多的、更充分的、和复杂度更高的技术来保证自适应能力，同时我们在窄高2.0里增加了修复能力，比较适用于高热内容，比如优酷世界杯。对这种重要的比赛用窄高2.0进行处理，在质量提升的同时，码率节省也更多，具体内容我在后面会一一展开。

1.2 窄带高清的全景图

上图是窄带高清的框图。从上一页PPT来讲，窄带高清除了单点技术之外，主打内容自适应。上图最下面的内容是核心技术：视频处理和视频编码。视频处理和视频编码是原子能力，上面的内容就是如何去做自适应。对窄带高清来说，自适应来自三个维度。

第一个维度：业务。不同的视频语音业务对窄带高清的诉求是不一样的，比如长视频和短视频：由于视频的采集方式不同和时效性不同，它所需要的窄高采用的技术和编码模式都是不同的。

第二个维度：视频热度。在手淘场景中对高热内容可以用窄高2.0启动二次转码来实现质量的进一步提升和码率的节省。

第三个维度：内容。内容分为两块——High level和Low level。

High level第一点就是语义。在语义中，基于不同的场景决策最优的编码参数，同时还有分割，分割就是ROI，我们可以对感兴趣的区域进行编码。第二点是质量，片源质量包括失真，包括亮度、对比度、噪声等等，以及它的片源质量是怎样的。这些内容极大地决定了视频处理的组合和强度，同时对编码器的决策也会有很大的影响。

Low level被我们认为是低成本的思路，包括时空复杂度和JND两个内容，我在后面都会进行展开。

视频普惠化下的视频编码与视频处理

阿里云视频云当下重点发力的内容之一是把视频普惠化，而视频普惠化的关键在于成本，2021年我们会继续聚焦在264、265持续成本的节省，同时在下一代VVC和AV1上发力。

2.1 视频处理

在视频处理方向，除了单点算法之外，我们还把重点放在了自适应方向上。窄高1.0的核心就是低成本和自适应如何兼得，我们的重要思路就是：尽可能地重用编码器的编码信息去帮助视频处理做自适应的决策，这样的自适应是零成本自适应，包括视频编码里的CUtree和自适应量化 (AQ)的信息、运动搜索的信息等，充分地使用到这些信息并帮助视频处理做出决策。

窄高2.0除了之前讲的场景语义帮助编码做决策之外，另一个重点要讲的是基于GAN的生成修复技术。这里的核心问题：由于GAN生成是不稳定的，怎样保证帧间一致性就是一个难题——这里我们用的是TCRnet。TCRnet是用IRRO偏移迭代修正模块结合可变形卷积来提高运动补偿的精度，同时利用ConvLSTM进行时序信息的补偿防止造成信息误差。

2.2 视频处理人像处理