IJCAI'22 | 感知图像内容的创意布局自动生成方法

阿里妈妈技术

于 2022-07-27 19:00:11 发布

阅读量1.3k

点赞数

文章标签：大数据 python 计算机视觉机器学习人工智能

本文链接：https://blog.csdn.net/alimama_Tech/article/details/126026275

版权

本文分享阿里妈妈创意&视频平台团队在图文广告创意方向上关于元素自动布局的探索与实践，在多个核心广告场景中应用并取得线上收益，具体应用可参考往期文章《实现"模板自由"？阿里妈妈全自动无模板图文创意生成》。基于该项工作总结的论文已被 IJCAI 2022 AI & Arts Track录用，欢迎阅读交流~

论文：Composition-aware Graphic Layout GAN for Visual-textual Presentation Designs

下载：https://arxiv.org/abs/2205.00303

▐ 背景

在广告投放过程中，需根据不同的商品制作创意以吸引用户。从历史实验上看，点击效果与创意视觉美观度呈正相关关系。目前，业界广泛应用的自动化创意制作方法，都是基于固定模板（布局）的元素替换或属性更改，即如下图所示，logo、文字、衬底、装饰元素等图形元素的位置不随商品图像变化而更改，常出现遮挡图像主体、视觉融合度不佳等问题，且千篇一律，容易产生视觉疲劳。在学术研究上，有一些自动生成布局的方法，但这些方法主要关注于布局的图形元素内部间的关系建模，未充分利用图像内容信息，无法解决上述问题。

因此，为解决这一业务痛点，我们提出了一种感知图像内容的创意布局自动生成方法，并基于该方法，可为商品图定制化地生成合理布局（如下图所示），保证商品主体的有效展示，提升创意美观度。

不同创意示意图

▐ 相关工作

在学术研究上，自动布局生成（Automatic Layout Generation）是一个被广泛关注的经典问题。早期的方法主要依赖于模板或者启发式方法，往往需要一定的专业知识，且经常受限于手工规则而无法实现灵活、多样化的布局。

随着深度学习的发展，LayoutGAN [1]、LayoutVAE [2]、VTN [3] 可通过数据驱动的方式自动生成布局，同时涌现了一些条件布局生成方法（如指定元素数量或类别、元素相对位置关系等）。但以上这些方法都仅仅专注于学习图形元素间的内部关系，没有考虑图像内容对布局的影响。

ContentGAN [4] 是第一个使用图像的视觉语义信息来生成布局的方法，它可以产出高质量的杂志页面布局。但在对图像内容的处理上，它仅使用了由预训练网络提取出的一维向量，缺乏空间信息和细节特征，在广告创意布局上仍无法避免主体被遮挡等问题。由此，我们提出了一种能更好地感知图像具体内容与位置的布局生成方法，能产出与图像适配度更强的高质量创意布局。