以下内容由 LiveVideoStack 与陈颖的采访整理而成。
------
Q:陈老师好,请您向LiveVideoStack的读者介绍一下自己、并和我们说说您的近况吧。
陈颖:我从早期的职业生涯开始就一直专注于多媒体领域,之后在2009年加入美国高通。在后来9年多的岁月中,一直在美国的圣地亚哥埋头技术研发,帮助高通成为多媒体,尤其是视频编码算法和标准化方面成为世界领先的公司。后期我也从事人工智能的工作,在移动端上研发计算机视觉算法,帮助公司芯片开辟在手机芯片之外的IOT新赛道。可以说从2000年进入北京大学的相关实验室之后,一直在从事图像、视觉、视频等方面的研究和开发工作。目前在阿里巴巴帮助淘系建立更加完备的音视频团队,并且能在音视频技术领域做到业界前沿水平,更好地赋能淘系内容业务,包括淘宝直播,逛逛等。
可能是由于职业的原因,我个人闲暇之余喜欢刷视频,长视频,短视频,包括有时候也会刷刷点淘,甚至逛逛。同时我每周都会争取有一次锻炼的机会,具体是足球。
------
#学术研究&工业界产品.
Q:您曾经在图像、视频和视觉领域发表过60+学术论文,相比目前您所从事的音视频算法技术工作来说,您如何看待学术研究与工业界产品化之间的关系?
陈颖:学术论文是技术创新的一种表现形式。我确实发表了一定数量的论文,单就论文数量这点还是难以和这个领域专门从事学术研究的优秀教授相媲美。然而,一个比较显著的特点是这些论文其实很多都是和我日常进行的系统化的产品研发工作强相关的,相当一部分是为了解决这些领域在工业界的具体应用问题。因此我发表的这些论文背后是我所贡献的几百项的美国发明专利(只计算已授权的)以及几百项的视频标准技术提案。其中不少都是音视频领域的核心技术(比如SEP,标准核心专利),有些技术(比如H.265/HEVC中的标准编解码技术)几乎被当前的每一台智能手机所使用(也就是每年超过10亿的新的手机设备)。从这些在业界产生较大影响力的创新技术提炼的论文,有些是受邀在顶级期刊发表的,总结业界的前沿进展,有一定的影响力。当然,也有另外相当大的一部分技术虽然有一定的创新性,但并未被大规模商用。
由此可见学术研究和工业界的产品化应用之间是可以相通的,只是前者更加关注创新突破,有很大概率没法转换成应用;而后者更多的是用技术手段解决业务问题,不一定需要用创新技术。产品应用中相当一部分是工程技术,对业务也有很大的价值。然而,创新的技术做好之后可以长期帮助业务建立壁垒。另外我认为业务场景和技术创新(学术创新是其一种表现形式)本身是不可分割的。一个重视技术的国家,一个追求技术的负责任的公司在掌握业务场景的同时,应该抓住机会将场景的优势转换为技术的优势,而不仅仅是把人类已有的技术用好,忽视技术创新的机会。
------
#视频编解码&直播视频.
Q:在研究视频编解码、标准迭代的过程中,有什么令您印象深刻/有趣的事情吗?
陈颖:我觉得LiveVideoStack创造了一个很好的面对音视频从业者的社区。相关的读者多少听说过视频编码标准。不过近几年大家听到的更多的可能是标准发布之后很多晒成果的PR,不一定了解里面的过程。关于视频标准制定的工作我也有十多年的经验,里面有很多或辛酸或有趣的故事。一个技术标准的形成是一个点滴技术积沙成塔的过程。这里至少包括有线下in-house研发和线上技术提案审核两个过程。在研发过程中,包括我在内的技术人员往往会因为两三个月开发出一个编码工具能够提升1%左右的编码效率而大受鼓舞,因为他们由此获得了加入积沙成塔的标准技术竞争过程的入场券,也就是线上标准会议中的提案审核。一项技术无论大小都要经过严苛的全方面评估才可能被接收成为标准的组成部分。而一次标准会议在一周左右的时间,需要审核的提案很多。标准编号数也从JVT(对应H.264)时代的三位记数发展到了JCT(对应H.265)时代的四位记数。
印象深刻的是为了完成对这些提案的审核,经常几十个公司的上百位专家要一起开会讨论到凌晨两三点之后。而H.264, H.265等这些标准就是我们这些参与标准技术贡献的工程师的智慧和努力所凝聚成的可供业界参照的灯塔,指导着直播、短视频、视频通话和视频会议等一系列视频应用的健康繁荣发展。当然能够把视频标准实现、应用好也是非常有技术含量且需要甚至比标准技术本身更多的投入的。
Q:在视频编解码方面,淘宝直播所采用的S265和x265两者之间的区别、以及各自的优势是什么;S265和x265分别适用于什么样的场景?
陈颖:H.265/HEVC与H.264/AVC一样是国际标准组织(ISO/IEC与ITU-T联合)制定的视频编码标准。
H.265/HEVC相比于H.264/AVC来说是下一代的视频编码标准,main profile定稿已经有八年了。大家可能知道开源的x265,它是符合H.265编码标准的开源编码器,有着灵活的编码档位配置,支持多种码率控制模型。而淘系主导自研了阿里的H.265编码器S265。站在巨人的肩膀上,S265相比于x265有一定的优势。
首先是编码效率更高,根据MSU2020比赛测试报告,S265 online档相比x265 medium 档次在相同速度下在SSIM、 VMAF以及 PSNR这三个质量评价指标方面分别获得20%、22.6%和37.8%的BD-rate收益(即同质量前提下,平均的码率节省),充分发挥了HEVC标准的潜力,更好地体现和H.264的代差。
其次,为了满足淘宝直播这样的大流量、高并发的实时应用的需求,我们做了较多的复杂度优化,提升编码速度。在快速模式下,S265相比x265 main档可提升3-4倍的速度,且依然保持一定的编码效率提升。同时,即便在慢速模式下,S265相比x265 ripping档次亦可提升10倍以上的编码速度,且编码效率不变。
再次,我们加入了一定的场景化感知能力,适配直播,点播,会议等全场景需求。比如针对RTC网络和大促流量调节的秒级码率控制,针对屏幕内容的预处理和Screen Content Coding(SCC)编码,针对会议和直播的低延时编码优化,针对商品和人脸的ROI编码以及基于场景分类的编码参数控制等。
------
#直播场景中的虚拟人物.
Q:在虚拟主播大火的今天,洛天依、初音未来等也曾入驻淘宝,虚拟人物的直播需要哪些关键技术作支撑?手淘保证真人主播与虚拟人物之间流畅互动的难点是什么?淘系技术正在构建什么样的解决方案?
陈颖:在商业直播场景中的虚拟人物,比如洛天依、初音未来、甚至虚拟明星、IP直播等虚拟主播背后都有不少的技术挑战,包含一系列的关键技术,比如动作、人脸捕捉,3D重建,SLAM,实时渲染,自然语言处理,TTS等。
和其它AR/VR/MR应用一样,真人主播与虚拟人物之间的流畅互动都需要极低延时的实时处理,在10毫秒级别里处理生成每帧所需的包括动作、人脸捕捉,渲染的任务,这是一个难点。其次高精度的动作捕捉和渲染也是保证体验所必须的。在智能化的语音互动方面,针对直播带货,相关的话术也需要通过对海量的电商多媒体数据、文本数据、结构化数据的挖掘处理,形成关于商品、场景的知识体系。另外一个难点是增加虚拟人物动作表情的真实感。这需要高度真实地还原材质、光照、物理运动、骨骼/肌肉运动。在微表情,口型方面也需要和虚拟主播的语言做好配合。
目前虚拟主播开播的成本非常高,需要专业的设备和专业的团队来完成,高昂的成本对于商家来说是很难承受的,也就无法利用这些新的技术去提升直播效果和经营水平。淘系现在致力于利用商家经济上可承受的方案普惠虚拟主播服务,支持采用普通的单目手机或PC做日常开播,追求让中小商家的开播成本降到最低。这方面目前我们有了一定的进展,但依然在努力。
------
#“购物链路” & “直播同步”.
Q:在叠加了电商的“购物链路”和直播的“直播同步”的双重复杂性的情况下,淘系技术如何保证高清晰度、低延时以及购物秒杀与直播内容的同步?在重点投入哪些技术领域?
陈颖:在电商直播带货场,主播推送商品,观众在线抢购商品是常态。我们可以将整个过程做到秒内延时,并且保证商品推送的消息同时到达、主播音画同步,从而保障身处不同地域的消费者都能获得平滑的观看体验、均等的抢购机会。为此我们打磨了一套直播消息系统,承担观众在线状态识别、评论、互动营销等功能。这套消息系统采用推拉结合的方式,并且用CDN作为兜底。对于大规模的消息,也采用了热点自适应打散,消息数据分片聚合、基于消息优先级的分发机制设计等一系列方法。对于一些特殊场景,消息信息也可以通过SEI融入到视频码流,实现完全的同步,提供极致的用户体验。
在更基础的高清晰视频画质和低延时体验方面,我们也在视频编码和传输技术上做出了努力。首先通过自研的S265编码器,提升编码效率,在降低CDN成本的同时,由于视频带宽需求的降低,卡顿率也相应减少。
另外,通过自研的全球实时传输网络(Global Real-time Transport Network: GRTN),淘宝直播实现了超低延时直播能力。传统直播基于HLS、DASH、FLV、RTMP等协议,延时方面有一定的历史局限。淘宝直播使用全链路RTC传输,并改造CDN结构,由中心组网改造为去中心组网,将端到端延时降低到1秒以内。RTC中传统的QoS策略得到了充分应用的同时,一些基础环节,比如拥塞控制方面我们也做了基于参数自学习的带宽预测算法,使得RTT和卡顿率都能显著降低。在业务上,这些画质、延时、卡顿指标方面的提升最终对淘宝直播的GMV有正向促进作用,这点得到了我们严格的A/B测试验证。在工程上,我们对卡顿和延时等指标有很好的实时追踪机制,确保我们及时的发现业务中的问题,并迅速迭代我们的技术予以解决。
------
#优势 & 规划.
Q:淘宝直播在行业中与其他厂商直播带货相比,优势是什么?
陈颖:2016年被称为直播元年,基础技术逐渐成熟,引出千播大战。而淘宝直播于2015年创立,平台的商家通过直播内容的垂直化经营缔造了一个又一个商业的数字高峰。现在,淘宝直播俨然成为商家在内容营销媒体上的第一选择。
面向直播行业而言,淘宝直播依托于手淘生态,所以淘宝直播在消费者和商家两端都保证了全链路优质的体验,既帮助商家降低经营成本、提高经营效率,又为消费者提供更好的导购、交易和物流履约体验。
直播本质上是交易和导购两种行为在秒杀级别上的结合,因此淘宝直播面临的是淘宝直播系统和包括导购、交易的淘宝电商体系两个高峰的叠加。原来的导购场景是不同的人会在不同的时间浏览不同的页面,那么整个服务器的压力是可以均摊的;而直播相当于把所有压力都集中到了同一点上。
这种复杂度的叠加,结合双十一等高峰流量场的承压,帮助淘宝直播积累了丰富的实践经验,也在不断挑战淘宝直播技术的水平,这是淘宝直播在技术迭代与创新上最大的优势。我们也将这些技术通过云化输出的方式,为企业客户和商家提供服务,比如在云上构建GRTN视频传输系统提供服务。
最后,我们有一批有技术理想的工程师,力求在音视频这个领域做最先进且和业务最适配的技术。
Q:我们也了解到,目前淘宝正向内容化升级中,视频类内容越来越被大家所接受,关于未来直播/内容视频的技术架构发展和演进,您是如何理解的,以及淘系是如何规划的?
陈颖:未来直播和视频内容方面,我们将在传输、视频、音频、音乐等方面发力,并且更加关注智能化和互动,持续升级我们淘系内容场景里面和音视频相关的用户体验。
首先我们将持续加强在传输方面的建设。从淘宝直播的初创期开始,在日常营销互动能力的完善之外,我们将RTMP+Http-FLV的协议升级至全链路的RTC,在延时的优化取得显著提升,且在抗弱网方面奠定了一定的技术优势。未来我们将打造更低成本的基于RTC的低延时P2P传输方案。
其次,视频的清晰度和带宽方面我们认为将有持续的提升空间。除了视频编码器之外,我们将重点追求整个全视频链路的端到端的优化,尤其是针对淘宝直播,逛逛里UGC水平的视频。本来,视频编码过程中的失真最小化只是整个端到端优化质量优化问题的一环。直播间光照环境,ISP成像,后处理等问题将和视频编码问题一起被联合优化,达到最优的质量、带宽和算力的平衡。围绕UGC的无参视频质量评价体系也将在其中发挥重要作用。
再次,在实时语音技术方面,我们会重点关注直播连麦基础音质体验,目标是任意设备、任何场景都能输出高品质的声音。通过结合传统的信号处理与AI的方法,解决音频3A、弱网音质、音频检测、音效美声、音质评价、音质监控等语音信号全链路涉及的技术问题。在直播音频主链路外,我们还会加强音频互动和安全能力方面的建设,助力直播业务实现诸如主播声音命令控制、声纹认证、粉丝声音游戏的功能。
此外,在音乐理解方面,我们将会覆盖对音乐的风格、情绪、旋律、节奏、和声等音乐特征,以及音乐与文字、图片、视频等关系的跨模态特征的全方位的理解。让每一首音乐都具有完整意义的内容标识和内容特征,可以进行跨模态的检索,实现精准的(逛逛业务中的)视频配乐、视频音乐识别等业务需求。我们也在探索音乐生成算法,以音乐特征或其他模态特征为输入,生成出符合人主观审美的音乐符号和音频,以丰富音乐多样性和音乐版权可用性。
最后,我们期望能在3D直播间、虚拟主播、智能导播,6DoF等方面加大投入,探索在主播的运营效率和交互体验上的新突破。
Q:对于本次 LiveVideoStackCon 2021 上海站的分享,您会带来哪些令人期待的具体内容呢?以及您最期待哪个议题的分享(https://sh2021.livevideostack.cn/topics),为什么?
陈颖:我将组织一个题为《迈向视频内容时代的淘系技术》的专场,和我的同事一起分享淘系在视频编解码、视频传输、视频理解等方面的一些技术进展,并且和大家探讨前沿的,我们也在大力投入的技术方向。
这次上海站的议题都不错。我会关注杨海涛博士组织的这个议题,“编解码的新挑战与新机会”。视频编解码确实是视频内容技术里面很重要的一环,依然有不少的前沿研究和工业落地的问题需要技术人员的不懈努力。
Pic from Ins
编辑:Teresa Li
LiveVideoStackCon 2021 上海站
时间:2021年4月16日-4月17日
我们准备好全新的内容,在上海欢迎您的到来
点击【阅读原文】了解更多详情