随着短视频、直播、智慧城市、5G等的快速发展,视频内容铺天盖地,五花八门,相应的处理需求也多种多样。如何能高效地应对?需要在数据处理系统,底层计算能力,以及算法研究等多方面协同努力。LiveVideoStackCon 2022 北京站邀请到沐曦AI解决方案总监——虞新阳,为大家梳理视频处理的需求及介绍沐曦应对视频处理场景的GPU产品等。
文/虞新阳
编辑/LiveVideoStack
大家好,我是虞新阳,早期主要从事GPU架构研发相关工作,包括视频架构以及computer架构,曾在国际旗舰厂商主导设计硬件解码器的架构设计和研发。对compute更上层的应用感兴趣后加入互联网公司,曾负责阿里巴巴智能家装设计整体解决方案。2021年加入沐曦,一家提供GPU芯片及计算解决方案的算力公司,负责AI算法方向的解决方案。本次分享的主题是《海量视频处理的应对和算法实践》。
为什么要研究视频的处理?
首先,人最基本的属性包括视觉、听觉、嗅觉、味觉、触觉等,其中的视觉和听觉是主要的信息接收和沟通管道。从人的基本属性可以看出,音视频永远不会过时,不管是在当前飞速发展的现实社会还是在今后的元宇宙场景中。
其次,第三方数据对视频的重要性也有总结。2021年,互联网消耗的数据流量主要集中在视频,占比大概是75%。一年后占比还在持续增加,由于短视频、直播等各种更贴近人类视听属性的应用的爆发,客户端的占比达到82%,移动端达到79%。可以想象,视频内容的占比还会持续增加。
为什么我们要特别关注这个问题呢?因为计算需要感知上层应用,或者说一个应用只有充分利用了算力才能够跑得快,而算力只有深刻分析理解应用,并不断进行迭代优化,才能设计出更好的算力。两方相互结合能更好地提升整体系统性能。
本次分享主要包括四部分:
1、视频处理需求理解
2、系统解决方案
3、视频处理算法实践
4、后续工作
-01-
视频处理需求理解
图中数据来自Bitmovin2021年的视频发展报告,它本身的调研数据来自于包括65个国家,大中小企业的工程、算法以及市场从业者等,覆盖面非常广。
挑战方面,主要包括直播低延时、成本控制(最主要是带宽流量)、各种设备可播放(笔记本、pad、手机)、精控分析、插广告等。
趋势方面,标黄部分特别重要:第一点,原来H.264是绝对的主流,但在2021年开始出现了首次下降(91%->83%),而专利费较高的H265提升却较明显(42%->49%),我理解是因为带宽的成本太高,比起额外的专利费,大家更需要降低带宽成本。第二点,无论是国外的亚马逊、国内的阿里、腾讯等,它们的云服务都在持续发展,编码采用云服务的比例持续提升。第三点是基于内容的编码,也就是智能视频编码,比例提升到了35%。
其它期待AI赋能的场景包括ASR、视频分析、打标签、视频质量的优化等。
接下来也简要介绍下国内互联网的情况(来源于过往的公开分享):
芒果TV,既是视频内容生产商,同时也是运营商,他们分享了5G背景下视频运营平台的挑战,包括CDN成本,4K/8K&60fps的应对等。
火山引擎,他们重点投入了新一代的编码器H266,并研发自适应编码、画质评价(感知短视频质量并确定推荐权重)等。
阿里云有一个产品叫窄带高清(降低带宽提升画质)。它具象地总结CDN成本占比,从他示例的视频云厂商来说,带宽:存储:转码的成本占比是100:3:1,应该远超出了很多人的感知。
抖音和微博在研发ASR技术来自动生成字幕,爱奇艺、网易云的工作重点是AI配音、AI生成音乐视频等。
最后来看看工业界的需求,主要包括智能安防、智慧交通、智能制造等。
国内的智能安防很发达,处理场景包括边缘端、服务器端等,对采集的海量视频的基本处理包括编解码、结构化分析及比对等。
智能交通包括路边停车识别、车路协同,以及汽车自动驾驶等,视频解码和结构化处理是这些功能最底层的要素。
智能制造主要是工业机器人,包括家电等的生产制造。最重要的场景是检测分类,也有定位、测量等工作。
梳理后可以发现,大方向还是视频编解码+AI,虽然后处理略有不同,有