ACM MM'22 & ECCV'22 | 6篇论文带你了解广告创意的“黑科技”

创意是广告的呈现方式,是广告不可或缺的部分。美观吸睛的图片和视频创意一直是广告主的心头好。为此,阿里妈妈开发了一系列智能创意技术,提供丰富的创意的创意制作工具。这些智能创意的背后隐藏了哪些”黑科技“呢?

近日,正值本年度多媒体和计算机视觉领域顶会 ACM MM 与 ECCV 放榜,阿里妈妈智能创意方向共有6篇论文被录用。本文通过论文速览带你了解这些新的算法进展,欢迎阅读交流~

🏷 ACM MM | Self-Supervised Text Erasing with Controllable Image Synthesis

基于可控图像生成的自监督文字擦除方法

下载:https://arxiv.org/abs/2204.12743

简介:文字擦除任务是指对图像中的文字进行去除并进行缺失内容填补,以便还原出纯净图片用于重编辑。常规的文字擦除模型通常需要大量的标注数据用于训练,而电商海报中多样的文字类型则增加了数据标注以及有监督训练的难度。因此我们提出了自监督的学习框架,可以自动合成训练数据且同时进行文字的擦除。该方法由可控文字合成模块以及文字擦除模块构成,为了减轻合成数据和真实数据之间的风格差距,我们构建了一个策略网络,并通过有效的奖励函数来选择合适的风格参数。除此之外,我们还提出了三元组擦除损失函数来加强复杂背景纹理的生成。在不利用标注数据的情况下,我们提出的方法在高分辨率的创意图PosterErase数据集中取得了领先的视觉效果,FID指标相对于其他方法提升了20.9%,并在公开数据集中也超过了现有的有监督方法。该方法可用于还原去除“牛皮癣”后纯净的商品图,而纯净的商品图是广告创意图片制作的基础。

eb29e9c69866234ed8cad81347bbf426.png
图 (a)展现了两种不同的合成过程。过去的方式(顶部)通常在预定义的文字风格空间中进行均匀采样,该方法生成的文字与真实场景的数据分布相差较大;我们的方法STE(底部)则是通过有效的奖励函数学习真实的数据分布;(b)则是基于以上两种不同方式的效果,三列分别为输入图片、过去方式擦除结果、我们的STE方式擦除效果
🏷 ACM MM | Estimation of Reliable Proposal Quality for Temporal Action Detection

基于动作边界置信度的视频时序动作检测

下载:https://arxiv.org/abs/2204.11695

简介:视频动作时序检测旨在定位和识别长视频中的动作,目前的检测算法主要将视频动作时序检测分为两个任务:动作分类和定位。本文揭示了这两项任务之间的置信度难以对齐的问题,即动作分类的置信度不能很好地表示动作定位的优劣程度。为了解决这个问题,我们提出了一种动作定位置信度评估模块BREM,可以同时基于动作边界和动作区域内部的特征,预测出可靠的动作定位置信度,协调这两个任务,从而挑选出更优质的候选动作。针对动作边界置信度问题,我们设计了边界定位评估模块BEM,它侧重于局部外观和运动演变的特征来估计动作边界的定位质量,并采用多尺度方式来处理具有不同持续时间的动作。而对于动作内部区域的部分,我们设计出REM模块来解决,REM使用一种新的高效采样方法来提取动作区域内的特征表示,与单点特征相比,它包含更多的上下文信息,从而得以进一步修正类别得分和动作边界。我们提出的BREM是一个可即插即用的通用模块,它们可以很容易地与其他时序动作检测方法结合,从而在ActivityNet 和THUMOS14上实现更加出众的性能。同时,该模块将在阿里妈妈创意中心(https://chuangyi.taobao.com)的"智能混剪"工具进行落地,提升视频自动切分的准确性。

e81f81f7c2ba11da8416d87308f1468c.png
这张图展示了动作分类的置信度(Score)与动作定位的置信度(tIoU)之间不一致的问题:高分类置信度proposal没有足够高的tIoU (蓝色),低分类置信度的proposal反而有更高的tIoU (黄色)
🏷 ACM MM | Geometry Aligned Variational Transformer for Image-conditioned Layout Generation

基于几何对齐Variational Transformer模型的图像布局生成算法

简介:图像布局生成是一个新颖的计算机视觉任务,其被广泛应用在诸如广告、海报、PPT设计中。它要求我们同时考虑物体局部信息和美学表现。一个合理且美观的布局既需要考虑布局元素的内在位置关系,同时还要考虑布局元素和背景图片的位置关系。然而,大多数已有方法只关注到了无图像背景约束的布局生成问题,没有考虑如果有背景图像约束时更为复杂的视觉信息。基于此,我们探索了一种新颖的范式——基于图像背景约束的布局生成,其旨在向背景图片上和谐且美观地添加文字、衬底等设计元素。具体地,我们使用图像约束的Variational Transformer来进行自回归序列生成,其中自注意力机制用来学习布局元素的上下文信息,交叉注意力机制用来融合视觉特征和布局信息。同时,我们使用条件变分自编码器来生成多样化的布局。除此之外,我们还提出了一种全新的几何对齐模块,用以缓解视觉通道和元素布局位置通道特征分布之间的差异。我们在大规模广告海报布局数据集上进行了实验,实验表明我们的算法可以很好地在背景图像中的合理区域自适应地生成元素布局。

c794a2b13f1fdc13de4cd7836e7cb714.png
左图为背景图片,中图为模型预测的布局位置,右图为实际渲染得到的创意图
🏷 ACM MM | A High-resolution Image-based Virtual Try-on System in Taobao E-commerce Scenario (Demo Track)

淘宝电商场景高分辨率虚拟换装系统

简介:在电商平台上,模特虚拟换装不仅能够吸引了更多的消费者,也能提升了消费者在电商平台的购物体验。然而现有的公共虚拟试穿数据集由于分辨率低、种族差异、数据集规模小等原因,无法推广到淘宝场景的服装单品。在这项工作中,我们为淘宝电商场景构建了一个大规模、高分辨率的虚拟试穿数据集。基于该数据集,我们提出了一个高分辨率的模特虚拟试穿系统,该系统基于知识蒸馏的方法,无需耗时的图像预处理即可生成高分辨率且有吸引力的模特虚拟试穿图像。通过提出的虚拟换装系统每天我们能够为投放广告的服装单品生成更生动的模特试穿创意图投放在淘宝首页的信息流场景中。该系统已覆盖超过10000款服装类商品,并在淘宝电商场景中产生数百万条虚拟试穿结果,为对应的单品广告带来点击率和收入的提升。

10595608aef946dc363d5f437e63f79f.png
换装过程和结果图片在电商平台上的投放
🏷 ECCV | Motion Transformer for Unsupervised Image Animation

无监督图片动画生成的Motion Transformer

简介:Image Animation旨在通过使用从Diven Video中学习到的运动来对源图像进行动画处理。当前SOTA的方法通常使用卷积神经网络 (CNN) 来预测运动信息,例如运动关键点和相应的局部变换。然而,这些基于 CNN 的方法并没有明确地对运动之间的交互进行建模,从而会导致在生成的动画视频中产生明显的antifacts。为此,我们提出了一种新方法,即motion transformer,这是首次尝试基于vision transformer构建motion estimator。具体地,我们引入了两种类型的tokens:i)由patch特征和相应的位置编码形成的image token;ii) 用运动信息编码的motion token。两种类型的token都被输入vision transformer中,通过multihead self-attention模块实现特征交互,以此更好地学习运动信息以提高模型性能。最后使用embedded motion tokens来预测相应的运动关键点和局部变换。在各个benchmark上的实验表明,我们提出的方法在SOTA的基线上取得了更好的结果。在广告智能创意自动生成中,本文的动作迁移方法可以用在利用单张图片生成商品展示视频的任务中。

ec696578573895c7d739cb4343bceedd.png
以上三组例子中,“Ours”列展示了本文方法的实现效果,相比于当前SOTA方法,视觉效果提升明显
🏷 ECCV | Motion and Appearance Adaptation for Cross-Domain Motion Transfer

动作与外观自适应的跨领域动作迁移方法

简介:动作迁移旨在将驱动视频的运动模式转移到源图像上以生成视频。当驱动视频中的对象与源图像中的对象存在相当大的差异时,传统的单域动作迁移方法往往会产生明显的artifacts。为了解决这个问题,我们提出了MAA方法用于cross-domain动作迁移。我们对合成图像中的对象进行正则化以捕获驱动帧中目标对象的运动方式,同时保留源图像中对象的形状和外观。一方面,考虑到合成图像和驱动帧的目标对象形状可能不同,我们设计了一个形状不变的运动适应模块,强制模型利用两幅图像中物体部分角度的一致性来捕捉运动信息。另一方面,我们引入了一个structure-guided的外观一致性模块,用于学习合成图像和源图像的对应patches之间的相似性。MAA 方法可以通过循环重建损失实现端到端训练,产生可靠的动作迁移结果。我们对人体舞蹈数据集 Mixamo-Video 到 Fashion-Video 和人脸数据集 Vox-Celeb 到 Cufs 分别进行了实验,MAA 模型效果都优于现有方法。在广告智能创意自动生成中,本文的动作迁移方法可以用在利用单张图片生成商品展示视频的任务中。

9a4e52c2c9a11a869d68f645334dbfea.png
“Ours”行展示了MAA方法生成的视觉例子,在跨领域的动作迁移中视觉效果均显著优于现有方法
▐ 关于我们

我们是阿里妈妈创意&视频平台,专注于图片、视频、文案等各种形式创意的智能制作与投放,以及短视频多渠道投放,产品覆盖阿里妈妈内外多条业务线,欢迎各业务方关注与业务合作。同时,真诚欢迎具备CV、NLP和推荐系统相关背景同学加入!

简历投递邮箱:alimama_tech@service.alibaba.com

END

a5439a74759d82dcd5e0965a94a1fafc.gif

也许你还想看

CVPR'22 | 基于像素差异学习的视频高光检测算法及在视频广告中的应用

CVPR'22 | 基于可形变关键点模型的图像驱动技术

告别拼接模板 —— 阿里妈妈动态描述广告创意

如何快速选对创意 —— 阿里妈妈广告创意优选

306906207eedb6be8436a56c63133e99.png

2b3cc01d6b79582229fecbc0f9a61671.gif

喜欢要“分享”,好看要“点赞”哦ღ~

↓欢迎留言参与讨论↓

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值