阿里达摩院提出时尚看点:电商视频多模态商品定位系统 | AAAI 2021

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达


paper:https://arxiv.org/abs/2102.04727

本文是阿里巴巴达摩院视觉实验室潘攀博士团队在电商视频场景中商品定位系统的一次应用落地。如今,电商场景的购物直播和短视频呈爆炸式增长。然而,卖家需要手动将商品图像与视频中展示时间段进行匹配,过程十分复杂。为了解决这个问题,多模态商品定位系统“时尚看点”应运而生,能够准确地定位直播视频中的主播展示商品的时间段作为看点。视觉内容、语言特征和交互上下文通过多模态学习被联合建模。系统实现视频内容结构化和多模式检索两个算法模块,自动完成视频与商品的精确匹配。“时尚看点”在消费者观看视频过程中引导其关注对应商品讲解,也可以通过搜索和推荐帮助卖家有效地投放商品内容。

1. 背景

在电商平台上,通过直播和短视频来购物越来越流行。消费者会在观看视频的过程中购买自己喜爱的商品。特别地,在直播过程中,卖家会展示、介绍、讲解上百种商品。如果客户想要购买正在讲解的商品,需要从相关联的商品列表中手动选择,会极大地影响购买效率和消费体验。因此,根据视觉、解说以及交互的内容自动定位出相应商品讲解片段,并向消费者推荐相应的商品,具有很高的价值。这样在观看视频的过程中,用户的购物体验也将会大大提升。由于展示商品的视角多样,前台及背景商品干扰等,传统视觉搜索方法在这种商品定位问题上效果不佳。准确识别视频流中的商品也面临着训练数据不充分的局限性。为了弥补匹配信息的不足,伴随视频的解释性音频和交互性评论,能够补充丰富的上下文信息。因此,利用可视化CNN模型、自动语音识别(ASR)和自然语言处理(NLP)工具从多种模态中提取特征,可以帮助在实时视频流中精确定位商品片段。

2. 系统框架

在“时尚看点”系统中,商品图像列表和实时视频流为系统输入,商品匹配的时间段作为看点输出。上图展示了该系统在直播平台的工作流程,主要涉及搭建两个算法模块:视频内容结构化和多模态检索。

内容结构化

这里内容结构化旨在未剪辑的视频提取出商品轨迹的实例。为了获取准确且稳定的商品轨迹,我们对视频中商品对象联合检测和跟踪,利用高效的One-stage Tracker生成轨迹候选,采用DLA-34骨干网络学习具有检测、表观和跟踪分支的一体化商品检测跟踪器,兼顾高精度且保持较高的速度。商品检测精度虽然可以满足需求,小尺度商品识别仍然存在严重的长尾问题。针对此,我们设计了一种层次化商品识别方法,有效地降低识别模糊度。

多模态检索

为了保证检索质量和计算效率,我们采用联合视觉-语言的多模态紧凑表征检索方案,通过轨迹到图像的度量学习,利用三元组约束提高检索准确度。同时,通过ASR将音频转换成文本,使用多模态的Transformer模型提取语言特征。此外,我们挖掘视频相关的评论和标题,用来进一步补充语言数据。通过多模态视觉和语言的融合,模型可以学习到统一的紧凑表征,来计算视频流和商品图像的相关性,从而极大地提高了商品图像的召回率。整个系统还需要为海量视频提供实时在线服务,我们构建了一套包含解码、索引和定位的流媒体视频处理引擎。下图展示了系统的可视化结果,(A)轨迹结构化结果,(B)商家端挂品接口,(C)消费端商品投放接口。

3.实验

系统在包含多个电商类目(衣服、包等)的直播视频上做商品定位的实验。每个直播持续时间约为5-7小时,采用召回率作为评价指标。“时尚看点”采用轨迹候选和多模态特征(Mlt_Trk)取得了最好的对比效果,验证了商品定位的优越性能。

*更多文章细节,欢迎参考我们的论文原文。欢迎有志在计算机视觉方面有所作为的同学加入我们,21年、22年毕业生皆可,简历可投递 yanhao.zyh@alibaba-inc.com

CVPR和Transformer资料下载
后台回复:CVPR2021,即可下载CVPR 2021论文和代码开源的论文合集
后台回复:Transformer综述,即可下载最新的两篇Transformer综述PDF
CVer-Transformer交流群成立
扫码添加CVer助手,可申请加入CVer-Transformer 微信交流群,方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch和TensorFlow等群。
一定要备注:研究方向+地点+学校/公司+昵称(如Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群
▲长按加小助手微信,进交流群▲点击上方卡片,关注CVer公众号
整理不易,请给CVer点赞和在看
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值