创意是广告的呈现方式,是广告不可或缺的部分。美观吸睛的图片和视频创意一直是广告主的心头好。为此,阿里妈妈开发了一系列智能创意技术,提供丰富的创意的创意制作工具。这些智能创意的背后隐藏了哪些”黑科技“呢?
近日,正值本年度多媒体和计算机视觉领域顶会 ACM MM 与 ECCV 放榜,阿里妈妈智能创意方向共有6篇论文被录用。本文通过论文速览带你了解这些新的算法进展,欢迎阅读交流~
🏷 ACM MM | Self-Supervised Text Erasing with Controllable Image Synthesis
基于可控图像生成的自监督文字擦除方法
下载:https://arxiv.org/abs/2204.12743
简介:文字擦除任务是指对图像中的文字进行去除并进行缺失内容填补,以便还原出纯净图片用于重编辑。常规的文字擦除模型通常需要大量的标注数据用于训练,而电商海报中多样的文字类型则增加了数据标注以及有监督训练的难度。因此我们提出了自监督的学习框架,可以自动合成训练数据且同时进行文字的擦除。该方法由可控文字合成模块以及文字擦除模块构成,为了减轻合成数据和真实数据之间的风格差距,我们构建了一个策略网络,并通过有效的奖励函数来选择合适的风格参数。除此之外,我们还提出了三元组擦除损失函数来加强复杂背景纹理的生成。在不利用标注数据的情况下,我们提出的方法在高分辨率的创意图PosterErase数据集中取得了领先的视觉效果,FID指标相对于其他方法提升了20.9%,并在公开数据集中也超过了现有的有监督方法。该方法可用于还原去除“牛皮癣”后纯净的商品图,而纯净的商品图是广告创意图片制作的基础。
🏷 ACM MM | Estimation of Reliable Proposal Quality for Temporal Action Detection
基于动作边界置信度的视频时序动作检测
下载:https://arxiv.org/abs/2204.11695
简介:视频动作时序检测旨在定位和识别长视频中的动作,目前的检测算法主要将视频动作时序检测分为两个任务:动作分类和定位。本文揭示了这两项任务之间的置信度难以对齐的问题,即动作分类的置信度不能很好地表示动作定位的优劣程度。为了解决这个问题,我们提出了一种动作定位置信度评估模块BREM,可以同时基于动作边界和动作区域内部的特征,预测出可靠的动作定位置信度,协调这两个任务,从而挑选出更优质的候选动作。针对动作边界置信度问题,我们设计了边界定位评估模块BEM,它侧重于局部外观和运动演变的特征来估计动作边界的定位质量,并采用多尺度方式来处理具有不同持续时间的动作。而对于动作内部区域的部分,我们设计出REM模块来解决,REM使用一种新的高效采样方法来提取动作区域内的特征表示,与单点特征相比,它包含更多的上下文信息,从而得以进一步修正类别得分和动作边界。我们提出的BREM是一个可即插即用的通用模块,它们可以很容易地与其他时序动作检测方法结合,从而在ActivityNet 和THUMOS14上实现更加出众的性能。同时,该模块将在阿里妈妈创意中心(https://chuangyi.taobao.com)的"智能混剪"工具进行落地,提升视频自动切分的准确性。
🏷 ACM MM | Geometry Aligned Variational Transformer for Image-conditioned Layout Generation
基于几何对齐Variational Transformer模型的图像布局生成算法
简介:图像布局生成是一个新颖的计算机视觉任务,其被广泛应用在诸如广告、海报、PPT设计中。它要求我们同时考虑物体局部信息和美学表现。一个合理且美观的布局既需要考虑布局元素的内在位置关系,同时还要考虑布局元素和背景图片的位置关系。然而,大多数已有方法只关注到了无图像背景约束的布局生成问题,没有考虑如果有背景图像约束时更为复杂的视觉信息。基于此,我们探索了一种新颖的范式——基于图像背景约束的布局生成,其旨在向背景图片上和谐且美观地添加文字、衬底等设计元素。具体地,我们使用图像约束的Variational Transformer来进行自回归序列生成,其中自注意力机制用来学习布局元素的上下文信息,交叉注意力机制用来融合视觉特征和布局信息。同时,我们使用条件变分自编码器来生成多样化的布局。除此之外,我们还提出了一种全新的几何对齐模块,用以缓解视觉通道和元素布局位置通道特征分布之间的差异。我们在大规模广告海报布局数据集上进行了实验,实验表明我们的算法可以很好地在背景图像中的合理区域自适应地生成元素布局。
🏷 ACM MM | A High-resolution Image-based Virtual Try-on System in Taobao E-commerce Scenario (Demo Track)
淘宝电商场景高分辨率虚拟换装系统
简介:在电商平台上,模特虚拟换装不仅能够吸引了更多的消费者,也能提升了消费者在电商平台的购物体验。然而现有的公共虚拟试穿数据集由于分辨率低、种族差异、数据集规模小等原因,无法推广到淘宝场景的服装单品。在这项工作中,我们为淘宝电商场景构建了一个大规模、高分辨率的虚拟试穿数据集。基于该数据集,我们提出了一个高分辨率的模特虚拟试穿系统,该系统基于知识蒸馏的方法,无需耗时的图像预处理即可生成高分辨率且有吸引力的模特虚拟试穿图像。通过提出的虚拟换装系统每天我们能够为投放广告的服装单品生成更生动的模特试穿创意图投放在淘宝首页的信息流场景中。该系统已覆盖超过10000款服装类商品,并在淘宝电商场景中产生数百万条虚拟试穿结果,为对应的单品广告带来点击率和收入的提升。
🏷 ECCV | Motion Transformer for Unsupervised Image Animation
无监督图片动画生成的Motion Transformer
简介:Image Animation旨在通过使用从Diven Video中学习到的运动来对源图像进行动画处理。当前SOTA的方法通常使用卷积神经网络 (CNN) 来预测运动信息,例如运动关键点和相应的局部变换。然而,这些基于 CNN 的方法并没有明确地对运动之间的交互进行建模,从而会导致在生成的动画视频中产生明显的antifacts。为此,我们提出了一种新方法,即motion transformer,这是首次尝试基于vision transformer构建motion estimator。具体地,我们引入了两种类型的tokens:i)由patch特征和相应的位置编码形成的image token;ii) 用运动信息编码的motion token。两种类型的token都被输入vision transformer中,通过multihead self-attention模块实现特征交互,以此更好地学习运动信息以提高模型性能。最后使用embedded motion tokens来预测相应的运动关键点和局部变换。在各个benchmark上的实验表明,我们提出的方法在SOTA的基线上取得了更好的结果。在广告智能创意自动生成中,本文的动作迁移方法可以用在利用单张图片生成商品展示视频的任务中。
🏷 ECCV | Motion and Appearance Adaptation for Cross-Domain Motion Transfer
动作与外观自适应的跨领域动作迁移方法
简介:动作迁移旨在将驱动视频的运动模式转移到源图像上以生成视频。当驱动视频中的对象与源图像中的对象存在相当大的差异时,传统的单域动作迁移方法往往会产生明显的artifacts。为了解决这个问题,我们提出了MAA方法用于cross-domain动作迁移。我们对合成图像中的对象进行正则化以捕获驱动帧中目标对象的运动方式,同时保留源图像中对象的形状和外观。一方面,考虑到合成图像和驱动帧的目标对象形状可能不同,我们设计了一个形状不变的运动适应模块,强制模型利用两幅图像中物体部分角度的一致性来捕捉运动信息。另一方面,我们引入了一个structure-guided的外观一致性模块,用于学习合成图像和源图像的对应patches之间的相似性。MAA 方法可以通过循环重建损失实现端到端训练,产生可靠的动作迁移结果。我们对人体舞蹈数据集 Mixamo-Video 到 Fashion-Video 和人脸数据集 Vox-Celeb 到 Cufs 分别进行了实验,MAA 模型效果都优于现有方法。在广告智能创意自动生成中,本文的动作迁移方法可以用在利用单张图片生成商品展示视频的任务中。
▐ 关于我们
我们是阿里妈妈创意&视频平台,专注于图片、视频、文案等各种形式创意的智能制作与投放,以及短视频多渠道投放,产品覆盖阿里妈妈内外多条业务线,欢迎各业务方关注与业务合作。同时,真诚欢迎具备CV、NLP和推荐系统相关背景同学加入!
简历投递邮箱:alimama_tech@service.alibaba.com
END
也许你还想看
丨CVPR'22 | 基于像素差异学习的视频高光检测算法及在视频广告中的应用
喜欢要“分享”,好看要“点赞”哦ღ~
↓欢迎留言参与讨论↓