七牛云徐晶:低延迟互动时代看好WebRTC和SRT

文 / 徐晶

策划 / LiveVideoStack

LiveVideoStack:徐晶你好,能否向 LiveVideoStack 的读者介绍下自己,及目前的主要工作和关注的技术方向?

徐晶:我在互联网视音频行业 9 年工作经验,3 年传统广电视音频经验。曾任阿里巴巴大文娱流媒体业务负责人,优酷直播品牌创始人,现为七牛云智慧教育行业产品负责人。

我常年从事互联网流媒体相关工作,接触最底层的协议,从最早的流媒体协议 mms 到标准 RTMP/HLS 协议,再到目前流行的低延时音视频 WebRTC 协议,都在这些协议上构建业务模型,驱动业务,形成业务闭环。

2010 始,创建优酷直播品牌,构建 B 端的高清业务模型,打通传统媒体的音视频与互联网音视频的技术壁垒,形成业内首个 to B 互联网商业直播平台,建立互联网的 HD-SDI 全高清标准,同步推出优化的 RTMP 协议。2014 年完成营收 1.2 亿人民币。后续又将电商属性和媒体属性相结合,孵化了淘宝直播产品,在电商直播领域形成行业领先。

在阿里巴巴 8 年后,加入七牛云团队,开始探索整个市场的直播 3.0 时代,即拥有互动能力的实时直播体系。在资本市场大量投向在线教育产业之际,开始推进在线教育的云计算解决方案。深入研究谷歌的 WebRTC 协议,利用该低延时的音视频传送建立教育行业的技术模型,目前已完成教育音视频通讯、教育白板、音视频加解密、海外传输优化、教育存储和大数据分析等云计算产品的尝试。后续将会深耕在线教育和互联网的行业解决方案,拓展和创建新的音视频教育模型。

LiveVideoStack:回顾过去,你认为互联网流媒体技术经历了哪些阶段?

徐晶:我认为互联网的视音频发展大致分为 3 个阶段:

1.0 时代:典型标志是标清传送。这是互联网音视频的最初阶段,通常没有较好的画质及用户体验,存在流媒体不稳定情况,但可以将传统音视频搬到互联网上来生根发芽。

2.0 时代:典型标志是在线观看。这个属性定义主要是单向的用户收看体验,在这个阶段,开始有高清画质提供,开始注重用户体验和简单互动,如打赏、点赞。

3.0 时代:即当前状态,典型标志为实时互动。越来越多的互联网音视频用户不仅需要高清观看,还需要强互动,从而交流话题形成社区。

在每个时代,都有特定的技术支撑体系。

1.0 时代:我利用微软的整套解决方案做技术核心建立平台,并不断调整优化。比如在 mms 时代由于不采用数字化的音视频采集,很容易出现声画不同步问题,技术上没有很好的时间戳解决方案,我们会对 mms 协议进行必要的改进,对编码前的时间算法进行了二次开发,让模拟信号在采集的同时可以进行一定时延调整;利用 Windows Media Encoder 的内核,扩大 buffer 空间,形成业内第一个可调整同步的编解码方案。

2.0 时代:苹果的 HLS 与 Adobe 的 RTMP 开始深入互联网的时代,高清开始发展。我当时负责技术上突破高清采集的限制,由于采集原始的音视频信号存在数据吞吐量大的问题,我们建立了嵌入式硬件的解决方案,与美国的一家公司合作建立互联网 Full HD 无损采集标准,建立 CCU 信号的初始编码规范,从而形成行业内第一个全高清商业直播平台,为各大品牌客户提供直播流媒体服务。包括奥迪、宝马发布会;戛纳电影节;苹果新品发布会、苹果 WWDC 开发者大会;世界互联网大会、央视春晚、天猫双十一晚会等。

2.0 时代还孵化了电商直播「淘宝直播」。突破横竖屏限制,推出服务端优化和合流能力。其中最大的挑战就是在流媒体中增加互动交易能力,我们建立云端导播(即当前的云导播能力)嵌入包装系统,建立实时音视频字幕系统增加业务端配套能力。与淘宝、天猫构建 PUGC 的移动直播工具,让直播的门槛足够降低,努力达到“天下没有难做的生意”目标。

3.0 时代开始,低延时需求越来越成为开发者用户的关注点。WebRTC 技术慢慢提上日程,WebRTC 原来不规范的信令标准在近期开始建立行业标准,阿里、腾讯、七牛云等纷纷开始拓展云计算带来的价值。而在互动领域,教育是最大的应用市场之一,其 2017 年体量约为 1800 亿人民币,但排名前十的营收仅为 41 亿人民币,空缺很大,这也意味着低延时流媒体的需求有相当大的空间。教育最难的突破点为行业性较深,有很多流媒体以外的需求痛点,如白板能力和 IM 能力,需要很好的集成,这是难点也是挑战。

LiveVideoStack:展望整个多媒体通讯领域,你认为哪些(开源)技术栈将会快速发展?

徐晶:在互联网多媒体通讯领域,我认为现在的时代是互动时代,是低延时时代,因此首当其冲的技术就是 WebRTC。其实从谷歌 WebRTC 开源到现在已经有不少年头,但是期间遇到了很多瓶颈和规范问题,比如原来的信令系统没有定义和规范,早期的 WebRTC 处在 peer to peer 模式,没有很好的音视频网络抖动保障和群组码率保障的机制,导致在群组多媒体通讯时往往因为一方的网络抖动导致整个通话的传输质量下降。当然,2017 年底,WebRTC 真正地开始发展起来,一方面是市场对低延时流媒体的需求迅速扩张,直播 3.0 时代的到来和强互动需求都给了 WebRTC 技术很多的想象空间。

还有一些开源协议和技术规范发展起来,如 Haivision 的 SRT 技术开始被应用在互联网传送,并且在一些特殊场景下沿用嵌入式硬件解决方案,这也从另一方面为低延时提供保障。VLC 从 3.0 开始对 SRT 协议进行有效支持,同时在低延时延展编码中采用该协议作为同步,这都会在未来 1~2 年开始逐步推向商业化。

LiveVideoStack:您参与过娱乐直播、电商直播和在线教育,这三种业务场景对技术支撑分别有哪些挑战?

徐晶:娱乐直播中最重要的属性是观看,其实就是直播的 2.0 时代的产物,他的挑战是画质的高清和网络传输的流畅,目前这部分都在被云计算的解决方案所覆盖,形成标准组件。2018 年的挑战是基于 4K 显示和编码的 OTT 延展技术和 4K+MR 的多媒体混合编解码方案,这些是技术上的突破,目前国内部分大厂商已经在开始着手研究 4K 领域的高校传输问题。

电商直播中最重要的属性在于互动和包装,即电商直播开始在原有的音视频基础上需要对画面进行增加字幕、显示包装等操作,同时还需要适配到各端的互动能力,因此最大的挑战在于互动与直播流媒体之间的低延时同步问题。如一个电商直播在 20 点整的时候开始抢购,需要同步在流媒体中输入有效的字幕,及同步所有的互动交互组件进行适配触发某些功能的实现。我们通过给流媒体加上相对时间轴和相对互动时间打点机制来完成,这个技术行业内叫流媒体时间戳。

教育类直播是直播垂直领域的一个分支,其重点的技术突破就是足够的低延时,能够让双向的直播不会因为时延而让双方交流不畅。重点是 WebRTC 技术的运用与优化,难点也是 WebRTC 的优化和相关配套能力(如白板、虚拟环境)的协同。比如如何解决 Peer to Peer 的不稳定问题,如何利用 P2S 模型建立更强大的服务端能力,比如服务端的 GPU 加速合流、录制能力,同时通过编解码的方式优化是否可以在服务端建立二次编解码能力做端上低码率适配等等。

LiveVideoStack:能否介绍下七牛云在教育和实时通讯领域有哪些特色技术和产品,未来有哪些发展规划?

徐晶:加入七牛云以来,一直致力于开拓云计算平台的教育行业解决方案,我认为未来云计算平台将不止于提供基础的云计算能力,还会围绕不同场景提供整体的行业解决方案,教育就是其中一个。教育行业的难点在于需要很多的基础产品进行结合,同时还会有很多的流媒体意外的痛点需要大量被集成和协同。

七牛云智慧教育行业解决方案的优势在于依托于七牛云的云计算平台,能够快速集成行业应用,满足业务需求。比如在音视频方面,目前大量的实时通讯的公司都在 WebRTC 协议上加了一层自己的私有化协议做基础保障,这样开放性低,兼容度不高,后续的维护成本过高。而七牛云是基于标准 WebRTC 开发,全程采用基础协议,这样无论在 SDK 的包体大小还是在后续的兼容度上看,会更有优势,好比是做了一个 App store,后续的功能其实可以通过开放的生态来构筑。当然七牛云智慧教育解决方案还有不少优势,比如精度可达全高清,不久将支持 4K 能力,再比如七牛的基于 GPU 的教育视频合流能力以及描述性白板同步能力,未来的七牛云智慧教育行业解决方案还会拓展 AI 和大数据的分析,针对传统教育行业的一些痛点进行深入化的单点打透。

LiveVideoStack:说说你将在 LiveVideoStackCon 2018 分享的内容吧。

徐晶:首先很荣幸可以在这样的平台上进行交流和分享,我擅长技术驱动,从而带动整合产品的模型发展,因此我会在这个分享会上去分享我在七牛云建立教育行业解决方案的最初思考,以及在这个思考背后所作出的技术改进和努力,同时也会将我目前所做的产品方案以及为什么会有这样的产品发展路径和选择和大家做一些互动。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值