本文由芒果TV音视频技术专家谭嵩在LiveVideoStackCon2020线上峰会的演讲内容整理而成,结合芒果TV的工程化研发实践经验,对基于主观感兴趣区域的视频编码技术进行了详细解析。
文 / 谭嵩
整理 / LiveVideoStack
大家好,本次分享我将结合芒果TV音视频技术研发团队的实践,对主观感兴趣区域的视频编码技术进行详细解析。内容包括以上四个部分,其中会重点介绍我们在主观感兴趣区域编码工程化中遇到的一些问题与思考。
1
5G背景下,视频运营平台的新挑战
随着5G时代的到来,用户对于视频画质体验的要求越来越高,如4K、8K、高帧率、HDR等。广电总局对电视播出的4K超高清视频规范的要求是视频码率大于100兆。互联网视频应用对此还没有规范性的标准,但为了达到合格的播放体验要求,视频码率也将呈现出成倍增长的趋势,这就导致视频运营平台短期内在CDN成本、用户播放卡顿两方面会面临更加严峻的挑战。
面对上述挑战,我们最容易想到的方法就是通过压缩效率更高的下一代视频编码标准,如AV1、VVC等,有效降低成本。但就目前情况来看,这些标准其实还不具备大规模商用的生态环境,真正能够支持硬件解码的设备其实非常的少。另一方面,内容感知编码以及拐点参数在国内外各大视频平台已经得到普遍的应用。在这种情况下,我们需要的是挖掘更多的工具或手段,极限压榨编码的码率。
2
人眼主观感兴趣关注的特点
2.1 人眼的视觉过程
人眼的视觉过程大致为视网膜成像,大脑接收信息并做出初步的分析,产生视觉注意力聚集,并且最后对重点区域做关注。例如,人在开车过程中,前方的道路和车辆就是主观关注和感兴趣区域,周边的区域就是非关注区域。