拥抱智能，AI视频编码技术的新探索

最新推荐文章于 2024-08-22 09:30:00 发布

LiveVideoStack_

最新推荐文章于 2024-08-22 09:30:00 发布

阅读量4.7k

点赞数

分类专栏：音视频人工智能编解码文章标签：人工智能音视频阿里云

本文链接：https://blog.csdn.net/vn9PLgZvnPs1522s82g/article/details/121329052

版权

阿里云视频云算法专家王钊在LiveVideoStackCon 2021分享了AI视频编码技术的新进展。通过AI生成式压缩系统，阿里云实现了在同等质量下比VVC节省2-3倍码率的超低码率视频通信。此外，阿里云在面向人眼和机器视觉的视频编码标准上作出贡献，推动视频编码效率的提升。

摘要由CSDN通过智能技术生成

随着视频与交互在日常生活中的作用日益突显，愈发多样的视频场景与不断提高的视觉追求对视频编码提出更高的挑战。相较于人们手工设计的多种视频编码技术，AI编码可以从大数据中自我学习到更广泛的信号内在编码规律。工业界与学术界发力推动AI视频编码标准并进行新框架的探索。阿里云视频云在JVET面向人眼的视频编码标准和MPEG面向机器视觉的视频编码标准上均做出重要贡献，对标准发展产生强有力的推动。结合产业需求强劲的视频会议、视频直播等场景，阿里云视频云还开发了AI生成式压缩系统，在同等质量下比VVC节省2-3倍码率，实现真正的超低码率视频通信。本次LiveVideoStackCon 2021北京站我们邀请到了阿里云智能视频云算法专家——王钊，为大家分享阿里云在AI视频编码技术的新探索。

文 | 王钊

整理 | LiveVideoStack

大家好，我是王钊，就职于阿里云视频云，今天的分享主题是“拥抱智能，AI视频编码技术的新探索”。主要想和大家介绍阿里云视频云的两个前沿工作。

分享包括四部分，背景与动机、人物视频生成编码、机器视觉编码和未来展望。

1. 背景与动机

我将从人眼视觉、机器视觉两方面延伸介绍阿里云视频云探索AI视频编码技术的背景与动机。

视频本身的数据量非常大，一张4K图像原始大小为24.3MB、4K未压缩视频的带宽需求约为6Gbps、一个超清摄像头每天产生的原始视频高达63TB，只有进行了视频编码才可以传输、存储。

随着时代的发展，智能安防、自动驾驶、智慧城市、工业互联网等场景中的视频也可以被机器接收、感知、理解。

以自动驾驶为例，一辆车主要具备的系统或设备包括摄像头系统（检测前方物体）、夜视红外、雷达测距器、惯性传感器、GPS定位器及激光雷达（360°进行扫描），这些都由机器采集图像和视频，再交付给机器进行分析、发现并解决问题、完善功能。

机器在某些维度上的能力优于人类，比如观测精度、感知灵敏度、工作强度耐受性（机器可以全天候运转）、客观性、可量化性。

据Cisco统计，以机器视觉为主的从机器到机器的数据传输将占据全球数据传输的50%，这是非常大的量。

无论是人眼视觉还是机器视觉，视频编码的原理都是一样的，即依靠视频信号本身存在的相关性：一幅图像中相邻的像素值接近，这是空域相关性；相邻图像的像素值接近，这是时域相关性；如果将像素从空域变换为频域，其中也存在相关性。这就是视频压缩的三个最基本相关性，空域冗余、时域冗余，信息熵冗余，由此诞生了视频编解码的三个主要模块，帧内预测、帧间预测，变换/熵编码。

冗余消除本身是无损的，但视频压缩会出现失真，失真是如何造成的呢？这是为了进一步提高压缩率，把视频信息变换到某个域上，例如传