ACM MM论文放榜!淘系技术内容互动算法团队4篇论文入选!

淘系技术内容互动算法团队在ACM MM2021会议上共有4篇论文被接收,涉及多模态预训练、图预训练和虚拟试衣等技术。VICTOR模型解决了中文视频-文本预训练的挑战,提升了推荐、检索和分类的效果。PMGT模型通过图预训练融合多模态信息,优化短视频推荐。SC-VTON则实现了内衣模特的形状可控虚拟试衣,创新了用户体验。
摘要由CSDN通过智能技术生成

淘系技术部内容互动算法团队,聚焦机器学习、视觉算法、NLP算法,端侧智能等领域,依托淘系数十亿级的视频数据,业务上支持淘宝直播、逛逛和点淘,有丰富的业务场景和技术方向,不断探索和衍生颠覆型互联网新技术,团队成员来自海内外知名高校,近两年参加CVPR竞赛获得4项冠军,累积在计算机视觉顶会期刊(如CVPR、TPAMI、TIP等)上发表论文10余篇,技术成果获得国家科技进步二等奖

本次 ACM MM2021 会议,该团队一共 4 篇论文被接收,并有相关技术创新点在淘系业务场景中的应用。后文将详细介绍各篇论文创新点以及落地使用。

NO.1

题目

Understanding Chinese Video and Language via Contrastive Multimodal Pre-Training

基于对比多模态预训练理解中文视频和文本

作者

雷陈奕,罗时现,刘勇,何旺贵,王家忙,王国鑫,唐海红,苗春燕,李厚强

论文创新点&对于行业的影响:

预训练模型在自然语言处理领域、视觉领域乃至多模态领域已经取得了巨大的成功。本文聚焦于多模态领域中的视频-文本的联合预训练策略,尤其针对中文视频和文本。针对视频-文本进行预训练主要存在以下挑战:第一,和静态图像不同,视频拥有动态的时空序列关系,直接将图像-文本的预训练方法移植到视频-文本领域并不足以捕捉这些复杂的关系信息;第二,预训练模型中广泛存在的视频-文本对齐任务和其它基于掩码的重建任务存在冲突;第三,大规模、高质量的中文视频-文本数据集的缺乏限制了预训练模型在中文领域的发展。

由此,本文提出一个基于重建和对比学习任务的多模态预训练模型VICTOR,并建立千万数量级的高质量中文视频-文本数据集。VICTOR以Transformer为主体,设计出基于重建和基于对比学习的七个任务训练模型。基于重建的任务包括掩码语言建模、掩玛句子生成、掩码帧序列建模和掩码句子序列建模四个任务,充分捕捉视频和文本的序列信息和交互信息;基于对比的任务包括对偶的视频-文本对齐、视频内的掩码帧对比学习和视频间的掩码帧对比学习三个任务,在避免简单的视频-文本对齐任务会融合不确定的多模态信息的同时,增强视频内的时空信息融合。VICTOR模型拥有上亿级参数,在构造的千万数量级的淘系视频-文本数据集中进行预训练,并在多个下游任务(如视频文本匹配、视频推荐、标题生成)获得了SOTA的性能提升。VICTOR模型的设计和提出,有效促进了预训练在中文视频-文本领域

  • 18
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值