ACM MM论文放榜!淘系技术内容互动算法团队4篇论文入选!

分享

这次面试我也做了一些总结,确实还有很多要学的东西。相关面试题也做了整理,可以分享给大家,了解一下面试真题,想进大厂的或者想跳槽的小伙伴不妨好好利用时间来学习。学习的脚步一定不能停止!

薪酬缩水,“裸辞”奋战25天三面美团,交叉面却被吊打,我太难了

Spring Cloud实战

薪酬缩水,“裸辞”奋战25天三面美团,交叉面却被吊打,我太难了

Spring Boot实战

薪酬缩水,“裸辞”奋战25天三面美团,交叉面却被吊打,我太难了

面试题整理(性能优化+微服务+并发编程+开源框架+分布式)

本文已被CODING开源项目:【一线大厂Java面试题解析+核心总结学习笔记+最新讲解视频+实战项目源码】收录

需要这份系统化的资料的朋友,可以点击这里获取

基于对比多模态预训练理解中文视频和文本

作者

雷陈奕,罗时现,刘勇,何旺贵,王家忙,王国鑫,唐海红,苗春燕,李厚强

论文创新点&对于行业的影响:

预训练模型在自然语言处理领域、视觉领域乃至多模态领域已经取得了巨大的成功。本文聚焦于多模态领域中的视频-文本的联合预训练策略,尤其针对中文视频和文本。针对视频-文本进行预训练主要存在以下挑战:第一,和静态图像不同,视频拥有动态的时空序列关系,直接将图像-文本的预训练方法移植到视频-文本领域并不足以捕捉这些复杂的关系信息;第二,预训练模型中广泛存在的视频-文本对齐任务和其它基于掩码的重建任务存在冲突;第三,大规模、高质量的中文视频-文本数据集的缺乏限制了预训练模型在中文领域的发展。

由此,本文提出一个基于重建和对比学习任务的多模态预训练模型VICTOR,并建立千万数量级的高质量中文视频-文本数据集。VICTOR以Transformer为主体,设计出基于重建和基于对比学习的七个任务训练模型。基于重建的任务包括掩码语言建模、掩玛句子生成、掩码帧序列建模和掩码句子序列建模四个任务,充分捕捉视频和文本的序列信息和交互信息;基于对比的任务包括对偶的视频-文本对齐、视频内的掩码帧对比学习和视频间的掩码帧对比学习三个任务,在避免简单的视频-文本对齐任务会融合不确定的多模态信息的同时,增强视频内的时空信息融合。VICTOR模型拥有上亿级参数,在构造的千万数量级的淘系视频-文本数据集中进行预训练,并在多个下游任务(如视频文本匹配、视频推荐、标题生成)获得了SOTA的性能提升。VICTOR模型的设计和提出,有效促进了预训练在中文视频-文本领域的进展,并可在多个视频相关业务(如视频推荐、视频分类等)广泛应用。

Victor 模型的总体框架:包含模型设计和自监督任务

论文相关技术在淘系实际场景的应用:

我们将VICTOR预训练的视频特征应用到内容检索、推荐、分类、直播等多个领域。各个应用场景均对比场景中已服务的Strong Baseline,具体来说:

  1. 内容推荐–逛逛内容推荐。效率保持稳定下,3天新发内容占比提升22.81%,冷启动UCTR +4.29%, PCTR +4.72%;

  2. 内容检索–淘宝经验。跨模态检索,保障相关性评测基础下,无结果率由3.23%降至0.95%

  3. 内容分类–逛逛内容分类。图文分类精度相对提升3.94%(60.97%->63.37%),视频分类精度相对提升7.33%(51.99%->55.80%)

  4. 物体检测与匹配 – 直播看点审核。全品类检测精度相对提升4.83%(89%->93.3%),美妆难例检测精度相对提升8.05%(75.8%->81.9%)

论文阅读/下载链接

https://arxiv.org/abs/2104.09411

NO.2

题目

Pre-training Graph Transformer with MultimodalSide Information for Recommendation

用于推荐系统的融合多模态信息的图预训练Transformer

作者

刘勇,杨粟森,雷陈奕,王国鑫,唐海红,张举勇,孙爱欣,苗春燕

论文创新点&对于行业的影响

在个性化推荐领域,尤其是短视频的推荐领域,多模态信息发挥着重要的作用。有效利用item的多模态信息,如文本、视觉等信息,可有效提高推荐的性能,缓解冷启动问题。目前存在的融合多模态信息的推荐模型,都是端对端的基于特定任务的模态融合,消耗资源的同时限制了模型的泛化。另外,在推荐领域,item之间存在着各种相关性(如基于标签的语义相关、基于行为的用户兴趣相关等)。为节省资源,提高模型利用率,同时捕捉item之间的相关性,本文提出一种基于多模态信息融合的图预训练框架PMGT,在捕捉item相关性的同时,指导item多模态信息的融合,并且预训练后的item特征,可应用到多种下游任务,避免了在每个特定任务都要重新融合模态信息的资源浪费和时间消耗。

PMGT首先根据item的相关信息,构建出一个item多模态图,其中图的节点为item,边反应了item之间的关系(如被相同用户交互过的item建立边),每个节点的特征由item的多模态特征构成。对图中的每个节点,我们设计出高效并行的采样方法MCNSampling,从图中采样出若干与其相关的节点组成节点序列,并使用基于多样性的transformer框架聚合节点特征,缓解模态融合的冗余性。最后使用基于图结构重建的任务和基于节点特征重建的任务指导相关节点融合和节点自身的多模态信息融合。将PMGT在Amazon和MovieLens公开数据集上预训练并测试,和最新的图预训练模型相比,达到SOTA性能。PMGT使用图的方式指导item的多模态信息的融合,并有效捕捉item之间的相关性,让预训练并不局限于item自身,增强了预训练的item特征的表达能力,可适用于多种下游任务和领域。

论文相关技术在淘系实际场景的应用

在淘系的短视频推荐领域,我们基于短视频tag信息建立拥有400万节点、4亿边的视频多模态图,并将PMGT预训练后的特征直接应用到短视频的召回阶段,7天新内容占比提升7%。之后可将预训练特征应用到排序阶段,甚至其它的业务场景(如视频分类),并且可将PMGT作为基础框架,使用特定的任务微调模型,达到效果的进一步提升。

论文阅读/下载链接

https://arxiv.org/abs/2010.12284

NO.3

题目

Shape Controllable Virtual Try-on for Underwear Models

(SC-VTON:针对内衣模特的形状可控的虚拟试衣系统)

作者

高鑫,刘振江,冯尊磊,申成吉,欧开日,唐海红,宋明黎

论文创新点&对于行业的影响

我们提出了一种形状可控的虚拟试衣网络(SC-VTON),针对内衣模特的试衣任务,使用融合了模特和服饰信息的GAT网络来生成形变后的服饰图片。除此之外,我们在SC-VTON中加入控制点来达到服饰的形状控制。更进一步,通过增加Splitting Network和Synthesis Network,我们可以使用服饰-模特的pair对数据优化模型,同时将任务泛化到常规的2D虚拟试衣任务。我们的方法能够做到精准的服饰形状控制。同时与其他方案相比,我们的方案能够生成纹理逼真的高分辨率图片,并且能够在实际应用中落地。这是业内首个将图注意力网络应用到虚拟试衣任务,同时能够做到精准可控的服饰形变。

论文相关技术在淘系实际场景的应用

服饰是淘系最重要的类目,虚拟试衣作为一种新颖的互动展示方式,为用户带来创新体验,为商家创造新的品牌展示方式。从20年元旦开在手淘拍立淘、扫一扫、云主题等公域场景上线了"虚拟试衣间"产品: 提供不同身材的模特供用户挑选,支持几十万件服饰的在线实时试穿。“虚拟试衣间” PV20-30W,UV10W,二跳页人均停留时长2min,平均试衣件数12件。此外,运营同学利用虚拟试衣产品功能,在微博发起"一天试穿500件奢侈品"话题营销活动,曝光2.4亿,讨论量15.1万,产品得到了商家和线上用户认可。

论文阅读/下载链接

https://arxiv.org/pdf/2107.13156.pdf

NO.4

题目

TransRefer3D: Entity-and-Relation Aware Transformer for Fine-Grained 3D Visual Grounding

(TransRefer3D:基于实体-关系可知的Transformer模型的细粒度3D视觉指代定位)

作者

何岱岚,赵禹昇,罗钧宇,惠天瑞,黄少飞,张爱喜,刘偲

论文创新点&对于行业的影响

本文提出了一种基于Transformer的模型来抽取3D场景中物体之间的多模态上下文,从而建模更具判别力的特征来定位被指代物体。

该模型的每一层中主要包括两个模块:

  1. 实体可知的注意力模块。该模块将语言中的实体信息与视觉实体特征相匹配,提取符合语言描述的实体特征;

  2. 关系可知的注意力模块。该模块将语言中的关系信息与视觉实体间成对的关系特征进行匹配,增强符合关系描述的实体特征。该模型在两个细粒度3D视觉指代定位基准数据集上取得了当前最优效果。

最后

终极手撕架构师的学习笔记:分布式+微服务+开源框架+性能优化

image

本文已被CODING开源项目:【一线大厂Java面试题解析+核心总结学习笔记+最新讲解视频+实战项目源码】收录

需要这份系统化的资料的朋友,可以点击这里获取

学习笔记:分布式+微服务+开源框架+性能优化

[外链图片转存中…(img-aFdPcNCs-1715804726136)]

本文已被CODING开源项目:【一线大厂Java面试题解析+核心总结学习笔记+最新讲解视频+实战项目源码】收录

需要这份系统化的资料的朋友,可以点击这里获取

  • 22
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值