1. 背景
美团围绕丰富的本地生活服务电商场景,积累了丰富的视频数据。
美团场景下的短视频示例
上面展示了美团业务场景下的一个菜品评论示例。可以看到,视频相较于文本和图像可以提供更加丰富的信息,创意菜“冰与火之歌”中火焰与巧克力和冰淇淋的动态交互,通过短视频形式进行了生动的呈现,进而给商家和用户提供多元化的内容展示和消费指引。
视频行业发展
我们能够快速进入了视频爆炸的时代,是因为多个技术领域都取得了显著的进步,包括拍摄采集设备小型化、视频编解码技术的进步、网络通信技术的提升等。近年来,由于视觉AI算法不断成熟,在视频场景中被广泛应用。本文将主要围绕如何通过视觉AI技术的加持,来提高视频内容创作生产和分发的效率。
美团AI——场景驱动技术
说到美团,大家首先会想到点外卖的场景,不过,除了外卖之外,美团还有其他200多项业务,涵盖了“吃”、“住”、“行”、“玩”等生活服务场景,以及“美团优选”“团好货”等零售电商。丰富的业务场景带来了多样化的数据以及多元化的落地应用,进而驱动底层技术的创新迭代。同时,底层技术的沉淀,又可以赋能各业务的数字化、智能化升级,形成互相促进的正向循环。
美团业务场景短视频
丰富的内容和展示形式(C端)
本文分享的一些技术实践案例,主要围绕着“吃”来展开。美团在每个场景站位都有内容布局和展示形式,短视频技术在美团C端也有丰富的应用,例如:大家打开大众点评App看到的首页Feed流视频卡片、沉浸态视频、视频笔记、用户评论、搜索结果页等。这些视频内容在呈现给用户之前,都要先经过了很多算法模型的理解和处理。
丰富的内容和展示形式(B端)
而在商家端(B端)的视频内容展示形式包括,景区介绍——让消费者在线上感受更立体的游玩体验;酒店相册速览——将相册中的静态图像合成视频,全面地展示酒店信息,帮助用户快速了解酒店全貌(其中自动生成的技术会在下文2.2.2章节进行介绍);商家品牌广告——算法可以通过智能剪辑等功能,降低商家编辑创作视频的门槛;商家视频相册——商家可以自行上传各类视频内容,算法为视频打上标签,帮助商家管理视频;商品视频/动图——上文提到美团的业务范围也包括零售电商,这部分对于商品信息展示就非常有优势。举个例子,生鲜类商品,如螃蟹、虾的运动信息很难通过静态图像呈现,而通过动图可为用户提供更多商品参考信息。
短视频技术应用场景
从应用场景来看,短视频在线上的应用主要包括:内容运营管理、内容搜索推荐、广告营销、创意生产。底层的支撑技术,主要可以分为两类:内容理解和内容生产。内容理解主要回答视频中什么时间点,出现什么样的内容的问题。内容生产通常建立在内容理解基础上,对视频素材进行加工处理。典型的技术包括,视频智能封面、智能剪辑。下面我将分别介绍这两类技术在美团场景下的实践。
2. 短视频内容理解和生成技术实践
2.1 短视频内容理解
2.1.1 视频标签
视频内容理解的主要目标是,概括视频中出现的重要概念,打开视频内容的“黑盒”,让机器知道盒子里有什么,为下游应用提供语义信息,以便更好地对视频做管理和分发。根据结果的形式,内容理解可以分为显式和隐式两种。其中,显式是指通过视频分类相关技术,给视频打上人可以理解的文本标签。隐式主要指以向量形式表示的嵌入特征,在推荐、搜索等场景下与模型结合直接面向最终任务建模。可以粗略地理解为,前者主要面向人,后者主要面向机器学习算法。
显式的视频内容标签在很多场景下是必要的,例如:内容运营场景,运营人员需要根据标签,开展供需分析,高价值内容圈选等工作。上图中展示的是内容理解为