编码压缩新思路:面向QoE的感知视频编码

最新推荐文章于 2023-07-01 22:26:54 发布

LiveVideoStack_

最新推荐文章于 2023-07-01 22:26:54 发布

阅读量1.6k

点赞数 4

本文链接：https://blog.csdn.net/vn9PLgZvnPs1522s82g/article/details/85086339

版权

640?wx_fmt=jpeg

面向用户体验的感知视频编码即通过机器学习检测用户感兴趣的视觉感知区域，并重新分配以更多的码率与复杂度。本文来自北京航空航天大学副教授、博士生导师徐迈在LiveVideoStack 线上交流分享，并由LiveVideoStack整理而成。

文 / 徐迈

整理 / LiveVideoStack

直播回放

https://www.baijiayun.com/web/playback/index?classid=18112964499258&token=5dFgxkkpuYbhKKZLIMQ5hgKPqOIijlSRsWLoDDpbtItXCKK6WvKjkj-sWrDs8Px_CqdH1zJ1Si0

大家好，我是来自北京航空航天大学的徐迈。本次我将为大家分享面向QoE的感知视频编码。我们希望通过基于感知模型的视频压缩编码技术，优化产品用户体验。

本次的分享将围绕以下四个方面展开：

640?wx_fmt=png

1. 技术发展背景

用户的需求升级推动技术的不断前行，技术的进步也在不断优化产品用户体验。

640?wx_fmt=png

十几年前，人们聚在一起庆祝新年，借助电话或短信嘘寒问暖，一起在温馨氛围中为新年到来而欢呼；而现在，人们相聚在一起庆祝新年，更多的是拿出智能手机、平板电脑等移动智能终端记录这样一个美好的瞬间。十几年的发展带来的首要影响就是数据量的激增，如何稳定高效传输大量用户随时随地采集到的音视频数据成为我们亟待解决的问题。

数据量的激增虽然为网络传输带来了巨大挑战，但也为人工智能等高新技术带来了需求与发展契机。

640?wx_fmt=png

于是在2009年，斯坦福的李飞飞等科学家一起构筑了用于测试视觉识别性能的ImageNet数据库。初期ImageNet包含了四千多个类别的四百多万张图像，而到了2017年底其已包含两万多个类别的1400～1500万张图像。2009年ImageNet数据库的建立与当时互联网上出现的大量图像数据密切相关，直到2018年的ImageNet中已包括了5400万余张图片，不得不说这加速了机器学习在视觉识别领域的运用进程。视觉识别离不开通过大量的图片训练增强其对相似视觉元素特性的规律总结能力，我们可以将这一思路运用在编码压缩领域，通过大量的视频压缩训练使机器学习掌握洞悉视频压缩结构规律的能力，极大程度优化视频编码性能，提升用户体验。

640?wx_fmt=png

根据统计，过去的2017年全球互联网上有1.2万亿幅图像产生，每一分钟就有几百万张图片被上传至包括Facebook、Snapchat在内的各大互联网平台；而视频的数据量则更为庞大，预计全球互联网视频数据总量将在2021年达到近2000EB。

640?wx_fmt=png

如此庞大的数据量无疑会为图像识别与通讯网络的发展带来巨大挑战，受限于通讯资源，我们的实际传输带宽资源远没有视频数据量所要求的那么充裕；若想借助有限的带宽资源快速稳定传输大量的图像与视频数据，则离不开高效的视频编码解决方案。

640?wx_fmt=png

讲到这里，我想我们需要回顾一下视频编码的发展历程。早期视频编码变革较快：四年间MPEG-1发展到MPEG-2，所带来的码率节省约为50%，编码效率翻倍，复杂度增长为5%左右；而H.264（AVC）发展到H.265（HEVC)，虽然编码效率仍有部分提高，但其背后复杂度增长却十分显著达到了二至十倍，实测可能更高。复杂度增长是现在编码发展的一个明显趋势，而从右侧数据中我们可以看出，随着编码标准的演进，编码增益的成长也十分显著：从初期AVC的9个Modes发展到HEVC的35个Modes；除此之外，早期的MPEG-1与MPEG-2是基于8x8的DCT变换，而发展到了AVC则实现了4x4与8x8的DCT，HEVC更是实现了4x4～32x32 DCT与4x4 DST；至于H.266还引入了预测模式，60多种预测模式使得相关参数复杂程度进一步提升。从中我们不难看出，视频压缩一直基于信号处理技术并不断进行演进，而信号处理技术发展到现在已经很难再产生颠覆性革新。随着技术的发展，边际效应愈发明显，技术突破愈发困难，因此我们迫切需要一种编码压缩的新思路。

640?wx_fmt=png

这种新思路就是结合用户感知对编码过程进行优化。用户感知与QoE紧密相关，人类视网膜大约拥有十亿视觉细胞，这使得人眼成为一台十亿像素的高清相机；大脑皮层会识别分析处理这些视觉信号，但连接人眼与大脑皮层的神经细胞仅有一万个左右，这就像一个资源十分有限的窄带带宽，那么人眼是如何利用这样一个窄带带宽传输像素高达十亿的高清视觉信号呢？这就是人作为高级动物的智慧所在：研究人的视觉感知模型我们可以发现，在人眼可感知的视角内，真正会引起大脑皮层明显兴奋的区域仅为2～3度；换句话说，人的视觉会将感知重点放在感兴趣的目标区域。由此启发&#