多模态视频商品检索记录再刷新！第二届淘宝直播算法大赛完美落幕-CSDN博客

本文链接：https://blog.csdn.net/2401_86963661/article/details/141958179

10月20-10月24日，多媒体方向学术盛会ACM Multimedia 2021 于中国成都正式召开。阿里巴巴淘系技术与浙江大学联合举办的直播中多模态商品识别Workshop暨第二届淘宝直播商品识别大赛圆满结束。

淘系技术通过该 Workshop 开源了业界首个大规模的多模态视频商品检索数据集，并联合浙江大学教授庄越挺、悉尼科技大学教授杨易、天津大学教授韩亚洪等国内外知名学者发起多模态检索领域的国际挑战赛，旨在共同推动电商直播场景中多模态商品检索识别的研究和 AI 技术在实际应用场景中的落地。

在电商应用场景中，淘系技术通过直播商品识别算法，实现淘宝直播过程中商品和直播讲解点的有效关联，让消费者可以通过点击商品跳转观看该商品的真人讲解，实现边看边买的沉浸式消费体验。而直播间讲解商品多，视觉相似程度高，直播场景复杂度高，给直播中商品检索识别带来巨大的技术挑战。如何基于直播内容的理解，进行多模态商品检索和识别，是非常值得研究并需持续投入的课题。

基于淘宝直播数据构建的多模态视频商品检索数据集Watch and Buy (WAB)，淘系技术于4月27日正式发起第二届淘宝直播商品识别大赛，相较与第一届大赛，在赛题设计上引导选手注重全类别的识别效果，特别是长尾的商品类别、视觉纹理简单商品的识别等，另一方面更加强调多模态信息(主播讲解语音、商品标题)等信息在精确识别视觉相似讲解商品中的重要性。

本届赛事共吸引来自北京大学、清华大学、中科院、卡耐基梅隆大学、伦敦大学、南京大学、浙江大学等全球知名高校学者组成的587支队伍参加，历经3个月的激烈追逐，最终来自中科院计算所、北京大学、中南大学组成的队伍分别获得本赛事的冠军、亚军和季军。