ACM MM论文放榜！淘系技术内容互动算法团队4篇论文入选！

最新推荐文章于 2024-08-29 19:36:07 发布

2301_79987255

最新推荐文章于 2024-08-29 19:36:07 发布

阅读量561

点赞数 18

分类专栏： 2024年程序员学习文章标签：算法

本文链接：https://blog.csdn.net/2301_79987255/article/details/137293148

版权

淘系技术内容互动算法团队在ACM MM2021会议上共有4篇论文被接收，涉及多模态预训练、图预训练和虚拟试衣等技术。VICTOR模型解决了中文视频-文本预训练的挑战，提升了推荐、检索和分类的效果。PMGT模型通过图预训练融合多模态信息，优化短视频推荐。SC-VTON则实现了内衣模特的形状可控虚拟试衣，创新了用户体验。

摘要由CSDN通过智能技术生成

淘系技术部内容互动算法团队，聚焦机器学习、视觉算法、NLP算法，端侧智能等领域，依托淘系数十亿级的视频数据，业务上支持淘宝直播、逛逛和点淘，有丰富的业务场景和技术方向，不断探索和衍生颠覆型互联网新技术，团队成员来自海内外知名高校，近两年参加CVPR竞赛获得4项冠军，累积在计算机视觉顶会期刊（如CVPR、TPAMI、TIP等）上发表论文10余篇，技术成果获得国家科技进步二等奖。

本次 ACM MM2021 会议，该团队一共 4 篇论文被接收，并有相关技术创新点在淘系业务场景中的应用。后文将详细介绍各篇论文创新点以及落地使用。

NO.1

题目

Understanding Chinese Video and Language via Contrastive Multimodal Pre-Training

基于对比多模态预训练理解中文视频和文本

作者

雷陈奕，罗时现，刘勇，何旺贵，王家忙，王国鑫，唐海红，苗春燕，李厚强

论文创新点&对于行业的影响：

预训练模型在自然语言处理领域、视觉领域乃至多模态领域已经取得了巨大的成功。本文聚焦于多模态领域中的视频-文本的联合预训练策略，尤其针对中文视频和文本。针对视频-文本进行预训练主要存在以下挑战：第一，和静态图像不同，视频拥有动态的时空序列关系，直接将图像-文本的预训练方法移植到视频-文本领域并不足以捕捉这些复杂的关系信息；第二，预训练模型中广泛存在的视频-文本对齐任务和其它基于掩码的重建任务存在冲突；第三，大规模、高质量的中文视频-文本数据集的缺乏限制了预训练模型在中文领域的发展。

由此，本文提出一个基于重建和对比学习任务的多模态预训练模型VICTOR，并建立千万数量级的高质量中文视频-文本数据集。VICTOR以Transformer为主体，设计出基于重建和基于对比学习的七个任务训练模型。基于重建的任务包括掩码语言建模、掩玛句子生成、掩码帧序列建模和掩码句子序列建模四个任务，充分捕捉视频和文本的序列信息和交互信息；基于对比的任务包括对偶的视频-文本对齐、视频内的掩码帧对比学习和视频间的掩码帧对比学习三个任务，在避免简单的视频-文本对齐任务会融合不确定的多模态信息的同时，增强视频内的时空信息融合。VICTOR模型拥有上亿级参数，在构造的千万数量级的淘系视频-文本数据集中进行预训练，并在多个下游任务（如视频文本匹配、视频推荐、标题生成）获得了SOTA的性能提升。VICTOR模型的设计和提出，有效促进了预训练在中文视频-文本领域

最低0.47元/天解锁文章

2301_79987255

关注

18
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
ACM MM论文放榜！淘系技术内容互动算法团队4篇论文入选！

引领完成Docker的安装、部署、管理和扩展，让其经历从测试到生产的整个开发生命周期，深入了解Docker适用于什么场景。并且这本Docker的学习权威指南介绍了其组件的基础知识，然后用Docker构建容器和服务来完成各种任务：利用Docker为新项目建立测试环境，演示如何使用持续集成的工作流集成Docker，如何构建应用程序服务和平台，如何使用Docker的API，如何扩展Docker。
复制链接

扫一扫