随着直播市场,特别是移动直播的繁荣,直播里冒出非常多的形态,形成了千团直播。直播以超强互动的形式也深入各行各业,例如教育行业中,实时通话的技术在小班授课的应用,极大地改变了教育行业时空形态;比如说直播在企业培训、早会等场景,也给企业带来很大的办公效能的提升,形成了淘宝和钉钉打造的群直播;当然,还有“直播+电商”这个行业,淘宝直播一定程度上定义了电商直播的玩法和形态。本文根据2018年杭州云栖大会现场,淘宝高级技术专家长孙泰的演讲《多媒体终端智能互动实践》整理成文,围绕直播里的互动玩法的实践展开。
淘宝直播在过去三年取得快速的发展,呈现了一个非常好的行业生态。从规模来看,过去两年增长的都在100%以上,成交的规模每年300%的增速在发展。直播互动给电商带来一种新的形式,这里面一些新的机构、达人和卖家,很好的把握了媒体直播风口,成长很快,直播也就演变成为淘宝电商里一个非常重要的互动内容形式。
我们看一下直播这两年的发展。我们在2016年初启动直播这个项目,将直播引入到淘宝生态里,目标是打造一个边卖边买的购物体验,主播直接向粉丝和观众推送商品,这种所见所得的互动和之前在电商领域图文领域有很大的改变,转化率提升也很明显;2017年,我们重点围绕电商的互动营销玩法,毕竟购物转化是最关键的要素,所以我们在直播里加入常见的例如红包、优惠券等等,还有每年的“双11”、“双12“,也都会有非常多围绕电商的好玩的玩法;2018年,人工智能的兴起也给直播互动带来新的元素,我们在流媒体互动增强方面也做了很多尝试。
我们看一下淘宝直播的整个直播架构。对于直播系统来讲,核心就是3块,一是需要有围绕直播的生产平台,包括手机的、PC的、云导播等等,以及围绕整个直播管理的配套工具;另外就是直播间,提供灵活支持业务变化的直播间的承载功能;最后是围绕主播和观众的一套实时的互动直播能力,也就是消息通道。直播的本质,要首先确保整个直播是不卡、不掉、不延时,核心是一个完整的直播的实时的互动体验。
最近两三年,人工智能的发展比较快,所以我们在直播这个场景上也就可以做更多的尝试和实验,包括算法在人脸的识别、美颜效果以及对肢体的识别能力的完善,端上推理引擎的优化以及硬件芯片的升级,也都给予直播不管是在PC端和移动推流端,带来了很大的可能性。AI不仅改变了搜索和推荐,也改变了在端上的一些效果的展现能力,尤其在直播流里,都可以玩起来了。
今天我会围绕直播来讲一下淘宝直播在互动的场景下做的尝试。重点是互动核心玩法:第一、营销互动,第二、人机互动,第三、智能运营。
常见的淘宝直播的玩法有红包、优惠券、答题等等,这里面简单展示了一些在典型的营销中的玩法。我们在开发的过程中也需要注意就是动态能力,因为直播里互动的变化是比较快的,特别是要应对每年的大促,需要针对每个活动特点上线实时的互动玩法,所以在直播间里构建出来一套能够完整支撑动态化能力的方案,根据直播互动的状况行为能力,形成一个标准的API,然后服务于WEEX和H5的开放体系,支撑业务的快速迭代是很重要的
对于直播来讲,发一个红包并不是目的,目的是希望能够运营好粉丝,实现更多的转化。在互动营销玩法里,让直播能够区分粉丝就显得很重要了。所以我们增加了直播和每个用户的亲密度的玩法,定义了用户在直播间里所有的行为,譬如停留时长、是否发了评论、点赞,是否点击商品,是否加购、下单。这些行为最后都会映射成一个亲密度分数,这样子就可以根据营销特点来合理确定运营分层策略,对直播的效率有非常大的提升,成交率转化率也大大增加。
以上是围绕营销层的互动和两个比较典型的关键性的技术,下面要讲的是,在直播流里面,随着机器性能提升以及端侧算法能力的加强,我们能在直播流做什么?以及用户看直播里不仅能够在层里做互动,还希望能够在流里做互动的技术尝试。
首先是能够支撑起这个基础能力的框架的设计,关键点是在端上让运行AI智能的框架,阿里在这方面的尝试很多,性能也都非常好,同时也结合了芯片能力做了非常好的优化,算法性能和模型也都要重点考虑,这里需要平衡算法的性能和效果。另外是素材,围绕媒体的算法构建素材中心,包括素材的编辑工具,提供在线的下载,实时的效果渲染。另外,我们希望能够在流里做展示的话,能够展示出可以交互的效果,那么我们在渲染能力结合直播推流的也需要在性能上特别关注。毕竟直播编码推流也很耗性能。
我们希望流里的内容不仅能够被增强,也能够参与互动,譬如说,主播往直播间里洒红包雨,用户可以点击正在飘的红包领取优惠券。在这里面关键点就是直播关键帧技术。我们看整个直播从前到后的流程,第一是图像采集,然后编码成一帧一帧的数据,然后封包推流出去。所以我们需要在画面里产生的一些动作,实时地写到当前帧的meta信息里,这样在播放解码的时候,就可以解析到流的信息,并往上发通知,业务层就可以做进一步的互动行为,就可以产生进一步的特效和玩法。但是也有一些问题,比如说直播帧如意丢了怎么办?这里面往往会通过消息通道里做一些补偿。
基于端侧智能平台和直播关键帧技术,我们在过去一年里面,在直播也在做一些尝试,譬如在造物节的时候我们做了一个简单的玩法,就是识别用户的手势,让讲解商品的时候会变得更加有趣,在这里面需要我们对手势进行识别,对手势不同的位置做分类,然后识别出来,知道当前指挥的手到底在哪里。
这个玩法是今年在世界杯演播厅尝试的互动玩法,在用户里引起了很大的关注。这个玩法是在演播厅里上层虚拟一个星空,舞台中央让嘉宾在直播中做一些游戏,这个游戏是在顶部空间里球会往下掉,嘉宾顶球,得分以后会引发一个红包雨。这个玩法我们是在演播厅里面基于服务器直接部署,玩法关键点在于第一我们对嘉宾的肢体识别,另外需要用两个固定的机位来计算嘉宾的深度信息,并计算嘉宾在游戏里面的得分。
绿幕扣图,绿幕扣图是比较常见的,主播也在用,但是毕竟来说有一块绿布也是有些成本的,所以我们希望能够做到自然场景特别是简单自然场景的扣图,譬如主播在讲解商品的时候,可以把商品视频投放在旁边;再比如直播说讲到海边的场景,能够让背景实时切换成大海的背景,同时可以随意回复到真实的现场场景,真实感也比较强。这是直播商品的识别,在直播间可以围绕商品做一些效果和特效,这些都能够带来更好的氛围和更好的转化。
以上是在人机互动以及效果增强方面我们做的一些尝试,对于直播来说,核心还是如何更好地运营粉丝,如何让的工作人员效率更高。因为现在一个主播后面往往有一个团队在支撑,包括问题的回复、画面的切换,推送营销等等。围绕这些场景我们也做了一些的尝试
(图示)这是电商直播里比较特别的场景,很多用户在直播里往往都会问一类问题:主播多重,胖不胖,因为女生会关注体型是不是和主播一样的,这个衣服我们能不能穿下,所以很多直播在直播间都会放一块黑板,而我们现在也在推流端给主播提供了一些小卡,可以让他放自己的信息,同时我们也在尝试通过人脸识别,自动识别主播是谁,并切换到相应的模特小卡,这里也应该比较好玩。
这个是直播小蜜,在直播里面,评论是用户和主播的主要互动方式,但是主播没有办法回复所有的观众,导致很多很好的问题都没有办法得到很好回答,我们分析过很多用户的问题,往往都集中在商品信息,所以我们在端上部署一个直播小蜜的产品,可以做到自动回复,这个功能点上线以后,整个自动回复率都得到了非常大的提升,同时直播间服务能力也得到提升,文本回复只是一部分,我们也有切片的回复的功能,这也正在尝试。
总的来看,从技术的视角来看,我们把整个直播分为三个切面,一是在互动层的营销互动,关键点是一套能够动态化、能够支撑不同复杂营销场景的一个动态化的技术;第二个切面,围绕直播流,借助于端上的AI处理能力,提升直播内容渲染和交互能力,第三个切面是围绕直播语音和文本,通过语意理解来提升主播的营销效率,这些是机器智能在端上的发展,带来在直播场景下的技术红利。
推荐阅读: