标准“突围战”

本文讲述了腾讯多媒体实验室在国际视频编码标准制定中的突破,从H.266/VVC标准的筹备到腾讯参与国际标准会议,再到超过100项提案被采纳并开源国内首个H.266/VVC视频播放器的过程。文章揭示了腾讯在解决高昂专利费问题、提升视频压缩效率以及推动中国企业在国际标准领域影响力方面的努力。
摘要由CSDN通过智能技术生成

标准突围战

转载自 腾讯产业互联网

2018年10月8日,澳门威尼斯人酒店,李翔从走廊这头小跑到那头。

刚刚进行了一轮“答辩”的他,正掐点前往另一个会场,进行下一场提案。

麦克风在手中,台下有来自日本、韩国、美国等国家的标准专家,李翔也是专家之一。

他既是提案“选手”,也是“评委”,除了要进行几十个标准提案,还要参与近700个提案的评审。

这是MPEG的124次标准会议,腾讯多媒体实验室标准负责人李翔,参考软件联合主席之一,代表腾讯在本次会议中提交了30多项技术提案,因为团队人员有限,他已经连续跑了三个会场。

这一场会议后,腾讯有近10项提案被H.266/VVC采纳,2年后,超过了100项提案被采纳,贡献度处于世界领先地位,并开源国内首个H.266/VVC视频播放器。

VVC,也称为H.266,新一代视频编解码标准,2020年7月正式推出,成为视频产业跨时代的里程碑。

关于VVC和背后的腾讯人,要从一张CD说起。
 

DVD背后的高昂专利费


一间DVD租借店、店里人头攒动、CD齐整放在架头、电视屏保上DVD logo来回撞动,拼接出一个DVD的黄金时代。 

 

多年前的 DVD 屏保


 如今,这幕景象已离我们很远,我们告别DVD,因为PC的普及,更深的原因,其实来自于底层视频编码格式的不断进化。
视频编码,是一种视频压缩技术,我们能看到的所有视频,基本上都被“压缩”过。一段1s钟的1080p、60帧视频,大小超过300M,视频编码让视频保持清晰的同时,将它压缩至5M内。

没有好的视频编码技术,也许你的硬盘会变成这样


十多年前,我们用50k/s的速度从网上下载一部《天下无贼》,苦等整夜,双击鼠标打开一个模糊不清的版本。

除了通信技术的限制,视频的压缩比很低,要在网上看高清大片,不是一件容易事。即便到了5G时代,没有好的编码技术,你也看不了一集流畅的《庆余年》。 而VCD的视频编码格式是MPEG-1,DVD是MPEG-2,这类初代编码,能把视频“压缩”进薄薄的光盘。

只不过,当时的视频国际编码制定过程中,并没有任何一家中国企业的身影。

因此,包括VCD、DVD厂商在内的本土音视频硬件厂商,每年都需要向标准必要专利的持有人公司缴纳大笔的视频标准专利费。在产品出海时,很多厂商承担不起高昂的专利费而遭遇诉讼。在视频标准领域干了好多年的李翔,也目睹过很多“卡脖子”事件。 年少时的李翔觉得能把电视剧、电影压缩在1.2毫米厚的光盘里,是一件很神奇的事。本硕从清华大学、博士从德国纽伦堡·爱尔兰根大学毕业后,他便投身视频编解码标准工作,如今已十多年。

“VCD,DVD时代被国外专利掣肘,到了PC、移动时代,本土的视频平台依然需要缴纳大笔专利费。”李翔说。

90 年代的 VCD 设备 


就拿13年开始推出的H.265编解码标准来说,它有三个专利池:MPEG LA、HEVC Advance、Velos Media,也就是三个专利运营机构,除了帮忙打理相关专利问题,还有一个重要的任务,就是收取标准专利费。三个专利池,收费标准和方式都不一样,每个专利池的费用还不低,一不小心就成“天价”。比如说,HEVC Advance按播放量收取视频平台的费用,上不封顶,让很多视频平台望而却步。

而据Cisco研究报道,视频将在2020年占全网流量的79%。凡是涉及到视频编解码标准格式的地方,都绕不开视频编解码标准专利费,具有自主知识产权的视频编码变得尤为重要。

这些年,越来越多的中国企业意识到这个问题,开始进入国际标准组织,参与到视频编解码国际标准的制定中。

3年前,腾讯也成为其中一员。QQ、微信、语音通话、全民K歌、腾讯视频等腾讯视频业务已越来越成熟,带来高额的专利成本和巨大的带宽成本。例如你在微信上视频聊天、在腾讯视频上刷剧、在QQ音乐上播MV、在腾讯课堂上上网课的同时,腾讯的带宽都在背后疯狂燃烧。参与国际标准制定,成为腾讯业务发展的硬性需求。而在外企工作多年,目睹“卡脖子”现状的李翔,心里也有一股冲劲——他希望中国本土企业在国际视频标准领域,能真正入场。

腾讯多媒体实验室总经理刘杉 (右一) 

 

在接过腾讯的橄榄枝后,李翔走进了腾讯多媒体实验室的加州办公室。

12月的加州,太平洋吹来的风有点冷,但是一场即将开幕的“视频编码奥运会”,让人数不多的团队里每个人都打上了鸡血:H.266/VVC视频编码开始筹备制定。  


 

奥运会”  也是博弈场


作为国际上主流的视频编码格式,目前市场上90%的视频编码格式都是H.264/AVC和H.265/HEVC。相比H.264/AVC,H.265/HEVC让视频保持同等质量的同时,大小压缩50%,但是这一代标准的进化,用了约10年的时间。

“视频编码的进化是一个漫长的过程,H.26X每更新一代,都要历时8-10年。就像参加奥运会一样,而且比奥运会还困难,一生也打不了几次”,李翔说道。而这场“奥运会”的首秀,距离提案征集的截稿时间,只有短短3个月。

与时间问题并行的,还有人手问题和空间问题。

加上李翔,标准团队就四五个人,而很多国外的标准团队,在全球有多个站点,几十号人。比如,在视频编解码领域久负盛名的德国老牌研究所HHI,单单投入视频标准VVC研发的团队成员就有30人左右。标准制定工作量巨大,而三个月一次、一次十来天、每天十几个小时的标准会,更加磨人,团队需要引入新鲜的血液,李翔一边筹备提案,一边兼岗HR招人。

另外,团队的几号人分布在各地,很多时候只能克服时差,黑白颠倒进行远洋连线。“这段时间就没有假期了,大家努力干吧。”李翔在QQ视频中向各地的组员打了一剂预防针,开始了几个月的闭关修行。
一通通越洋电话,就这样飞越半个地球,跨过黎明和黑夜,推动着一个个提案的成型。

2018年4月,美国圣地亚哥,腾讯首次亮相JVET国际标准会议,成为当期会议唯一的中国互联网企业。那时的腾讯,在很多专家眼中,还很“脸生”。“有些专家甚至没听说过Tencent”,李翔说道。在“答辩”环节,李翔团队还经常受到其他团队的“围攻”。一些年轻的同事经验较少,面对别人咄咄逼人的攻势,就有些后退。

“如果你被人家气势吓住,忘了自己优势在哪儿,那就失败了!” 

“甭管你平常怎么谦虚谨慎,但是在会场该上的时候,还是要拿出气势!不要看别人是权威,不要怕,要勇于挑战,把自己该说的东西指出来,人家不好的地方也明确指出技术的缺陷,这样才可以!” 
在会场,李翔化身“李教练”,给团队提供全面的攻防指导。很快,团队学会了据理力争。 

李翔在标准会议现场(左二)

第一次会议,腾讯提交了10个提案。

但是10个高质量的标准提案,在质量评测中却超过很多国际知名公司和研究机构。

“坦白地说,这么短时间,这么几个人,也不可能做到第一、第二。但是我们的提案排名其实很靠前,刷新了其他公司对腾讯的认知。更重要的是,我们展示了自己团队的战斗力。”

圣地亚哥一战,让腾讯这张标准会议的新面孔,开始被更多人记住。

但是,除了技术的比拼,标准会议更是一个博弈场。

标准制定的背后,有着各个产业不同的利益诉求,单单的技术过硬,缺少辩论逻辑和博弈思维,提案的过程也会相当曲折。战略和战术也很重要。

2018年10月,澳门,JVET第12次会议,腾讯标准团队正在进行一项屏幕内容编码的提案。其实,这个技术已经在4月份和7月份的两次标准会上进行过讨论。因为一些芯片厂商的顾虑,这项提案一直在修改中。

“你要去了解厂商顾虑的根本原因”。焦点问题是芯片厂商认为屏幕内容编码不是广播类应用的主流,但支持屏幕内容编码要增加芯片的面积,从而增加硬件成本。针对焦点,标准团队决定分别突破。一是屏幕内容编码的应用前景,二是如何减少芯片厂商实现的成本。屏幕内容编码技术在H.265/HEVC时代就已经出现。但该类应用在当时刚开始起步,还不是主流,也就没有出现在H.265/HEVC的基础版本里。可在近些年,包括远程会议、网课、屏幕分享、游戏直播等应用的迅猛增长,屏幕内容编码的需求也越来越普遍。通过对实际业务的分析,参会厂商逐渐形成了该类业务已经成为重要应用之一的共识,从而消除了芯片厂商的这一顾虑。同时,标准团队积极研究如何进一步降低芯片实现成本,学习芯片相关知识,了解到成本增加的核心是片上存储的增加。知道了核心问题,团队开始死磕如何节省片上存储,最终提出了各方可以接受的方案,还进一步提高了性能。

博弈场上“魄力”,也在生长。

“答辩”环节是各方利益的正面交锋:台下的标准专家,会在麦克风后排起长队,集体对台上的提案者“放狠话”,激烈之处,甚至还会“抢麦”,李翔等人要一一拆招,对心态和反应都是一种考验。
终于,腾讯的屏幕内容编码技术在澳门这次会上被正式采纳。

“当时是三个会场,我穿插去辩论,说的好听去辩论,说的不好听去吵架,那天上午我吵得精疲力竭,就这一个吵赢了,还挺高兴。”李翔回想起2年前的“吵架”场景。
在他看来,每场标准会,就像一场华山论剑,各家把自己的看门招数悉数亮出pk。

“历代标准都是一个竞争的舞台,有英雄迟暮,也有新英雄出来。”

国际标准会议现场 

2018年4月、7月、10月,经历第一年的三场硬仗,腾讯开始实现视频编解码标准上“零的突破”,越来越多的提案获得采纳,在国际视频编码领域崭露头角。  

 

后来者的加速狂奔


2020年,疫情来袭,标准会议转移到线上,这对于提案有了更高的要求。但同时,李翔也看到,疫情之下爆发的视频产业,让新一代视频编解码的价值更加凸显。据欧洲电信运营商沃达丰披露,疫情期间,欧洲多国的网络游戏流量都翻了10倍,网络影音流量翻了4倍,在线教育、远程办公、召开视频会议的流量比过去猛增了50%。与此同时带来的巨大带宽占比,让很多电信运营商不堪重负,甚至在网络高峰期自动降低影片播放画质,节约带宽。

在腾讯,多媒体实验室的技术支持了很多的视频相关的业务,应用场景覆盖了视频点播、视频直播、音视频通信等。暴增的视频流量也将大幅增加目前的视频应用以及未来的视频新应用的带宽成本。而H.266/VVC可以带来巨大的带宽、流量节省。采用下一代视频编解码标准技术迫在眉睫。

一种使命感驱动着这个小而精的团队加速奔跑。新一代标准的孵化进入最后阶段,腾讯多媒体实验室的朱斌博士推动H.266/VVC播放器的研发。

标准的制定相当于“理论说明书”,而播放器可以真正实现新一代编码的产品化,推广到实际运用中。 
 

朱斌博士,负责H.266播放器的研制 

 

团队双线并行,挺过了“说明书”成稿后的最后几轮“会议轰炸”。

7月,H.266/VVC编码标准正式出炉,腾讯超过100项技术提案获得标准采纳,累计技术提案300篇,在国际视频压缩标准研究制定领域处于第一阵营,贡献度处于世界领先地位。

腾讯王者荣耀片段被纳入标准测试序列,是手游第一次进入测试序列,这意味着,王者荣耀视频片段成为了所有企业测试压缩技术的考卷。

2020年11月,在VVC正式出炉的第三个月,腾讯开源国内首个H.266/VVC视频播放器,性能指标国际领先。这意味着,其它视频厂商不需要额外的研发投入,就可以快速实现H.266/VVC标准格式在其产品中的嵌入,加速H.266的应用落地,H.266的裨益将更快的惠及整个视频产业。

腾讯开源播放器 O266player  

 

3年的时间,后入场的腾讯,成为了国际视频编码领域举足轻重的角色。

  

不是终点线


从H.265/HEVC到H.266/VVC的诞生,经历了八年。

同样,在保证视频质量不变的情况下,采用H.266/VVC编码格式的视频大小要比H.265/HEVC缩小50%。H.266的专利池中,已经有越来越多中国企业的身影,很多的技术提案来自中国,在新一代视频标准上,中国企业有了更多的话语权与自主权。

除了能够节省高额专利费,缓解“卡脖子”的尴尬,H.266/VVC还有更多“跨时代”的意义。2020年一个月,全网产生的视频流量有120多EB,相当于1.2x1011GB,也就是1200亿GB。 如果视频能够应用为H.266编码格式,将会减少巨大的带宽占比和流量消耗,对于视频厂商来说,成本将大幅度降低,背后巨大的经济效益以及社会效益不可忽略。

VR、8k,这些被热捧的技术有着很高的带宽要求,由于当时视频编码很难跟上,所以声响减弱。H.266/VVC给了这些产业,一个质变和量变的机会,为自动驾驶、远程医疗、云游戏等更多产业打开了一扇新的窗。

视频技术的进化 带给许多产业更多想象


但H.266/VVC的发布并不是终点。

这个襁褓中的婴儿,还需要继续进化。

从一个编码的发布,到落地应用和普及,也需要5年甚至以上的漫长时光,这背后,需要更多专家共同的努力。

加州的阳光很松很暖,李翔和朱斌团队的脚步却不能停歇,他们感受到背后有一股巨大的使命感,推着他们继续向前。

深度学习是机器学习的一个子领域,它基于人工神经网络的研究,特别是利用多层次的神经网络来进行学习和模式识别。深度学习模型能够学习数据的高层次特征,这些特征对于图像和语音识别、自然语言处理、医学图像分析等应用至关重要。以下是深度学习的一些关键概念和组成部分: 1. **神经网络(Neural Networks)**:深度学习的基础是人工神经网络,它是由多个层组成的网络结构,包括输入层、隐藏层和输出层。每个层由多个神经元组成,神经元之间通过权重连接。 2. **前馈神经网络(Feedforward Neural Networks)**:这是最常见的神经网络类型,信息从输入层流向隐藏层,最终到达输出层。 3. **卷积神经网络(Convolutional Neural Networks, CNNs)**:这种网络特别适合处理具有网格结构的数据,如图像。它们使用卷积层来提取图像的特征。 4. **循环神经网络(Recurrent Neural Networks, RNNs)**:这种网络能够处理序列数据,如时间序列或自然语言,因为它们具有记忆功能,能够捕捉数据中的时间依赖性。 5. **长短期记忆网络(Long Short-Term Memory, LSTM)**:LSTM 是一种特殊的 RNN,它能够学习长期依赖关系,非常适合复杂的序列预测任务。 6. **生成对抗网络(Generative Adversarial Networks, GANs)**:由两个网络组成,一个生成器和一个判别器,它们相互竞争,生成器生成数据,判别器评估数据的真实性。 7. **深度学习框架**:如 TensorFlow、Keras、PyTorch 等,这些框架提供了构建、训练和部署深度学习模型的工具和库。 8. **激活函数(Activation Functions)**:如 ReLU、Sigmoid、Tanh 等,它们在神经网络中用于添加非线性,使得网络能够学习复杂的函数。 9. **损失函数(Loss Functions)**:用于评估模型的预测与真实值之间的差异,常见的损失函数包括均方误差(MSE)、交叉熵(Cross-Entropy)等。 10. **优化算法(Optimization Algorithms)**:如梯度下降(Gradient Descent)、随机梯度下降(SGD)、Adam 等,用于更新网络权重,以最小化损失函数。 11. **正则化(Regularization)**:技术如 Dropout、L1/L2 正则化等,用于防止模型过拟合。 12. **迁移学习(Transfer Learning)**:利用在一个任务上训练好的模型来提高另一个相关任务的性能。 深度学习在许多领域都取得了显著的成就,但它也面临着一些挑,如对大量数据的依赖、模型的解释性差、计算资源消耗大等。研究人员正在不断探索新的方法来解决这些问题。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值