10月20-10月24日,多媒体方向学术盛会ACM Multimedia 2021 于中国成都正式召开。阿里巴巴淘系技术与浙江大学联合举办的直播中多模态商品识别Workshop暨第二届淘宝直播商品识别大赛圆满结束。
淘系技术通过该 Workshop 开源了业界首个大规模的多模态视频商品检索数据集,并联合浙江大学教授庄越挺、悉尼科技大学教授杨易、天津大学教授韩亚洪等国内外知名学者发起多模态检索领域的国际挑战赛,旨在共同推动电商直播场景中多模态商品检索识别的研究和 AI 技术在实际应用场景中的落地。
在电商应用场景中,淘系技术通过直播商品识别算法,实现淘宝直播过程中商品和直播讲解点的有效关联,让消费者可以通过点击商品跳转观看该商品的真人讲解,实现边看边买的沉浸式消费体验。而直播间讲解商品多,视觉相似程度高,直播场景复杂度高,给直播中商品检索识别带来巨大的技术挑战。如何基于直播内容的理解,进行多模态商品检索和识别,是非常值得研究并需持续投入的课题。
基于淘宝直播数据构建的多模态视频商品检索数据集Watch and Buy (WAB),淘系技术于4月27日正式发起第二届淘宝直播商品识别大赛,相较与第一届大赛,在赛题设计上引导选手注重全类别的识别效果,特别是长尾的商品类别、视觉纹理简单商品的识别等,另一方面更加强调多模态信息(主播讲解语音、商品标题)等信息在精确识别视觉相似讲解商品中的重要性。
本届赛事共吸引来自北京大学、清华大学、中科院、卡耐基梅隆大学、伦敦大学、南京大学、浙江大学等全球知名高校学者组成的587支队伍参加,历经3个月的激烈追逐,最终来自中科院计算所、北京大学、中南大学组成的队伍分别获得本赛事的冠军、亚军和季军。
其中来自中科院计算所的冠军队伍的F1分数高达0.69,超过baseline0.22,Top3队伍的F1分数均超过0.6。在论文征集部分,workshop共接收了5篇论文,包括两篇long paper,三篇short paper。
Watch and Buy Challenge & workshop 成果总结
直播中多模态商品识别Workshop于10月20日下午在成都举行,聚集了来自海内外的计算机视觉领域专家们带来了精彩分享。
其中包括新加坡国立大学计算机学院的KITHCT讲座教授Tat-Seng Chua分享的“Deep Visual Analytics: Towards more Effective Multimodal Retrieval, QA and Recommendation”的keynote talk,
北京航空航天大学的刘偲副教授以“Cross Modal Intelligence Analysis and Generation”为主题的学术报告,
还有来自悉尼科技大学青年研究员朱霖潮主题为 “Challenges and Opportunities of Multimodal Understanding”的学术报告,
由淘系技术高级算法专家陈志文带来题为“Industrial Practice of Multimodal Video Content Understanding”的工业实践分享。
来自中科院、北大、中南大学、清华、华中科技大学的五位同学进行了口头报告,分享了他们的参赛方案和成果。