实现“模板自由“？阿里妈妈全自动无模板图文创意生成

本文作者：云芑、明驰、悟放、鹏徙、持信、大摇、逸冰、因尘

文章目录

全自动无模板图文创意生成系统
业务赋能效果
- 整体效果展示
- 业务赋能结果
总结
关于我们
Reference

本文介绍阿里妈妈过去一年研发的最新图文创意制作系统。它是一个全自动智能制作系统，绕开了现有常见的基于模板填充的方案，模仿设计师制作创意的过程，将制作步骤拆为素材挖掘、图片布局生成、图上文案生成、元素属性确定几步，其中每一步均由模型完成。相比于模板方案，该系统可根据制作底图特点，更灵活确定布局、字体字号颜色等属性，使生成结果更多样也更个性化。

在广告的投放过程中，创意图（如下图所示）是广告主触达消费者的媒介，优质的创意图不仅能吸引消费者的注意，还能简洁有效地展示、推销商品，传达广告主的意图。

然而，制作创意图并非一件容易的事情，一方面制作时需考虑构图、文案、排版、配色等一系列问题，耗时且有一定的设计门槛；另一方面，创意制作需求量大，既需要适配不同广告位生成多种尺寸版本，还需要根据主推商品变化、节日、活动等因素进行内容更新。

因此，广告平台也推出了程序化拼接创意来帮助广告主自动化地快速生成创意（如下图所示），即事先通过设计师制作出一批模板，模板上预留出放置商品图和文案的区域，然后通过程序将收集到的商品图像、文案素材填充至各模板对应区域，完成创意图制作。这种拼接创意制作简单、可大规模快速生产，但相比人工创意质量较差、拼接感严重且千篇一律。

过去几年，我们在拼接模板的基础上加入了视觉感知技术、智能设计语言，提出了动态描述模板创意（《告别拼接模板 —— 阿里妈妈动态描述广告创意》），一定程度上降低了自动化创意的拼接感，在视觉质量和投放效果上都获得了一定的提升。但不管是拼接创意，还是动态描述创意，两者本质上都依赖于设计师预先制作的模板，难以避免模板创意天然具有的一些问题，比如整体布局受限，图像和模板搭配度、融合度欠佳，比如创意尺寸取决于模板尺寸，每新增一个投放尺寸就需要制作新模板。

考虑模板创意存在的这些问题，我们开始了对下一代图文创意制作系统的探索，期望不需要设计师设计任何模板，而是系统直接根据输入的商品素材，自动化地基于这些素材制作出美观且多样的创意。

全自动无模板图文创意生成系统

经过近一年的尝试和研究，我们将创意拆解为底图、创意布局、图上文案、渲染属性等关键因素，并通过模型完成这些关键因素的自动化控制和生成。相比于模板方案，如下图所示，该系统可根据制作底图特点，更灵活地确定布局、字体字号颜色等属性，使生成结果更多样也更个性化。目前，该系统已在阿里妈妈主要投放场景大规模测试，结果正向，并向着更加视觉和谐、稳定可靠的下一代图文系统前进，下面对制作过程进行详细介绍。

系统概述

如下图所示，对应于上文所述的创意关键因素，我们将整个图文制作系统，按制作流程分为素材挖掘与（底图）生成、图片布局生成、图上文案生成、元素属性预估与渲染几个关键流程。
在这里插入图片描述全自动无模板图文创意生成系统框图

具体地，首先，我们根据商品输入信息，采用自底向上的方法，或挖掘或像素级别生成的方式得到多尺寸、多样化的符合美学要求的商品素材，这一步就是素材挖掘与生成。接着，我们训练了一个模型，从设计师的海量创意中，抽象提取出共有的设计规范，从而做到给定一张背景素材图片，模型产出所有后期元素（文字、文字衬底、Logo等）的位置、类别信息，这一步就是图片布局生成。然后，我们提出了一个多模态文案生成算法，综合考虑商品信息、图片信息以及文案位置信息来自适应地生成文案，这样得到的文案会根据所在图片上位置的不同表现出不同的属性信息（长文案、短文案、卖点、利益点等等），这一步就是图上文案生成。最后，我们使用属性预估模型，对文案的字体、颜色、强调色、描边、粗细、衬底等属性进行模型预测，这些属性丰富了最终创意的多样性，同时大大提高了生成创意的美观度，这一步就是元素属性预估和渲染。将以上步骤串联起来，这就构成了我们新一代的全自动无模板图文创意生成系统。

下面是每个模块的具体实现。

图片素材的挖掘与生成

图像素材是创意和设计的重要原料，不美观的素材图再怎么加工也很难得到一张好看的创意图，因此素材的筛选就显得尤为重要。另外，我们的图片素材挖掘模块还需要天然地支持多尺寸挖掘，这样才能生成多尺寸的创意图。除此之外，为了扩大系统的应用范围与便捷性，我们还考虑合理利用一些经过广告主后期加工的图片。由此，我们设计了一套流程，依次进行商品图过滤和提取、图上元素解析、图像修复、图像重定向，很好地解决了上述问题。
在这里插入图片描述
在获取商品的各原始图像后，我们首先用一个分类模型，将纯文字图、小图拼接图等不适宜制作创意的图像剔除；

接着，我们将创意、商品图像中常见的ps元素分为4类（如下图所示，logo、文字、装饰元素、衬底），并用一个检测器对商品图像中有无ps元素、ps元素的类别/位置进行分析；

然后，对于有ps元素的图像，我们用inpainting模型进行修复。同时，针对创意上特有的文字元素，我们还专门训练了一个擦字模型。考虑到常规的文字擦除模型训练需要大量标注数据，且电商海报中多样的文字类型增加了有监督训练的难度，我们提出了一种文字擦除的自监督学习方法。在不利用标注数据的情况下，我们提出的方法在高分辨率的创意图中取得了领先的视觉效果，并在公开数据集中也超过了现有的有监督方法，更多细节详见论文 [1]。

最后，在获取到无ps元素的干净/修复图像后进行裁剪。考虑仅依靠裁剪，难以将商品图重定向为宽高比较为极端的尺寸，因此，当目标尺寸宽高比较大时，我们还在裁剪前使用了outpainting模型来延展图像。即使用GAN模型进行图像延展操作，像素级别生成出未知区域的像素，使其和已知区域保持语义连续性，更多细节详见论文 [2]。

经过以上步骤，底图的生成效果如下所示：
在这里插入图片描述

图片布局生成

在这个环节，我们需根据图像内容，生成制作创意时的合适布局。布局可定义为不定长的ps元素集合，每个元素包括其类别和位置信息。与元素解析中的定义一致，元素类别有logo、文字、衬底、装饰元素这四类，位置信息则由每个元素的中心坐标和宽高表示。

我们尝试了GAN、Autoregressive Transformer两种生成方法来预测布局，结果证明它们都是可行的，分别简述如下：

GAN模型根据图像内容生成创意布局，需解决两个核心问题：1）图像和人工创意布局的成对数据获取；2）如何在生成布局过程中充分利用图像内容信息。

对于问题1），最直接的方式是由设计师根据图设计布局，得到相应数据，但这样成本很高，且数据易因设计师少而陷入固有模式。因此我们创新地提出了一个域对齐模块，只需获取广告主创意图，并类似于图像检测任务标出其上的元素类别和位置，在训练时通过两个子网络（inpainting和saliency detection网络）对图像进行处理，测试时便可直接使用干净图像进行预测。

对于问题2），我们则将多尺度CNN和Transformer相结合，提出了一个内容感知的布局生成GAN网络。该网络充分利用两者的优点，不仅可通过Transformer中的self attention机制有效学习地学习元素间的对齐、交叠等关系，而且还能通过cross attention建模元素与图像内容位置、背景颜色纹理分布间的关系。此外，该网络还支持添加用户约束，可对用户布局进行合理补全，满足实际应用中部分场景的特殊设计需求。更多细节详见论文 [3]。
在这里插入图片描述
Autoregressive Transformer 与GAN模型类似，Autoregressive Transformer也试图对框和主体的位置进行建模。为了能够实现多样性布局生成，我们设计了Transformer + VAE的结构，即先获取输入图像的Embedding，然后通过Transformer的Encoder得到隐空间向量z的均值和方差，接着通过学习到的z的分布进行采样，经过Transformer的Decoder最终得到每个元素的类别和位置，具体结构如下图所示。之所以采用这样的结构有如下几个考虑：

首先，Autoregressive相比Non-Autoregressive结构的表达力更强，即在给定前N个框时，预测第N+1个框的位置，通过合理地安排输入框顺序，模型可以一定次序依次输出不同位置的框，同时天然支持在给定输入框情况下补全剩余框的任务。

其次，采用VAE结构和KL loss可有效约束隐空间为高斯分布。在Inference时，任意采样的z向量都可以得到一个不错的布局框，即隐空间向量z是连续且稠密的。实验显示，无论是固定输入图像的条件下任意改变z，还是固定z的情况下任意改变输入图片，模型都可以产出合理的布局，这证明了我们模型的有效性。

另外，为了充分利用图片中主体位置信息，我们还创造性地提出了一种几何对齐（Geometry Alignment）模块。我们修改了Transformer中的cross attention，并将图像Embedding显式地用位置坐标来进行建模。这样使得输入Transformer的内容、位置Embedding向量解耦，并分别与图像中的内容、位置Embedding向量做内积，得到相似度矩阵。这一结构使得输出框的位置能有效感知图像中主体位置，在保持自身位置关系的同时避开主体区域。更多细节详见论文 [4]。
在这里插入图片描述
采用以上方案，针对不同图像的布局可视化效果如下（其中蓝色/绿色/红色框分别为预测出的Logo/文本/衬底的位置）：

为验证layout和图像内容间的相关性，我们还对图像进行了随机裁剪/缩放，结果如下图所示，网络能相应地产生不同的layout。
在这里插入图片描述

图上文案生成

在这个环节，我们为图片上的各个文本框生成恰当的广告文案，以突出商品卖点，提升商品的吸引力和信息量。

传统的图文创意依赖于设计师的模板，即在设计时人为指定每个坑位的文案类型（长文案、利益点、卖点等），这导致模板的普适性不足，且要求具有生成指定文案类型、字数的能力，不够灵活且适配成本较高。为此，我们提出一种更为自动化的文案生成方式，利用多模态技术，综合考虑图片本身信息（如商品类型、位置和背景色）、商品文本信息、文本框位置layout 以及多个框之间的相互逻辑关系等信息自适应地生成合适文案。即在给定的位置自动化地创作出富有创意且合理的文案，让模型学会“在图片的合适的位置说合适的话”。
在这里插入图片描述
现有的图像文案生成通常是对整张图片生成一个叙述性文案，缺乏对图片在空间上与对应文案的互动关系。在这个任务中，我们将在图片上的具体位置生成与之对应的文案。该任务有以下难点：

1.某些文案可能适合多个位置框，模型可能会为临近位置生成相似的多个文案，需考虑整体layout影响；
2.文案框的位置需要同时控制文案内容、类型及字数，因此模型需建立图片-位置框-文案之间的强依赖关系；
3.不同类目商品的文案描述风格有明显的区别，模型很容易出现“张冠李戴”的情况。
针对这些问题，我们经过一系列的实验和尝试，最终提出了基于多层transformer的多模态模型，模型商品主图、当前框位置、前后框位置以及商品标题等信息等多种模态信息作为输入，分别进行信息嵌入后输入一个混合模态的多层transformer中，通过自回归的方式生成预测的文案。结构如下图所示。
在这里插入图片描述
观测最终文案生成结果，我们不难发现该方式具有如下优点：

·文案和位置具有更好的适配性，看起来更原生自然
·无需显式地指定文案类型和文案字数
在实际使用阶段，我们使用4亿张主图的大数据集进行训练，得到的模型在文案通顺度和合理性上都达到了很好的效果，单条创意文案的人工合理性审核的过审率接近90%。具体实验结果和实验细节，参见论文 [5]。

元素属性预估和渲染

得到布局和对应的文案之后，为了呈现出最终的创意，需要预测视觉属性并进行渲染。这一部分包括视觉属性识别模块、视觉属性预估模块、绘制渲染模块三个模块。

1）视觉属性识别。为训练视觉属性预估模型，需构建一个大规模、多尺寸的视觉属性数据集。有的图上视觉属性易于人工标注，如“文案位置框、是否描边、是否渐变”等，但对于一些属性（如具体的颜色RGB值、文案的字体）则难以通过肉眼准确判断出来，因此通过模型进行字体和颜色的属性识别。

对于字体识别，我们采用了自监督的方式，即生成不同样式的文字，并将其与无文案图像合成数据集训练；然后，用该模型预测真实创意上的文案字体。

文字区域的RGB颜色值同样是难以标注的，需人工通过取色器进行准确定位取色，且标注有一定的偏差。因此我们采用图形处理的方式识别颜色标注。即对于给定的图上文案以及位置，先用字体分割模型得到文案区域，再提取相应颜色。

2）视觉属性预估。在得到字体颜色、字体、衬底颜色、渐变色等视觉属性后，我们对属性预估模型进行训练。

为了减少复杂背景对于颜色预估的影响，我们对输入网络的图像进行量化，即对所有像素点进行K-means聚类，然后所有像素点赋值为对应的类别聚类中心的像素值。同时，为了不泄漏文案衬底的视觉信息，通过掩码遮盖处理后作为网络的输入。

网络采用Encoder-Decoder的结构，Encoder编码视觉信息，Decoder根据图像视觉信息与位置信息预估元素的视觉属性，总体结构如下图所示。对于输入图片，编码成长度为L的patch序列作为Decoder的memory。Decoder 以每个元素的位置和类别属性作为Query，通过Self-attention进行不同元素之间的信息交互，通过Cross-attention与视觉编码进行信息交互。一个Query输出对应的属性作为预测结果，由于颜色、字体等属性存在类别长尾分布，因此我们采用FocalLoss作为模型训练的目标函数。
在这里插入图片描述
3）绘制渲染。对于给定的位置属性、类别属性以及预估的视觉属性，可以在图像上绘制出具体的栅格化图形。这里不再赘述。通过以上方法，我们可以根据图像内容和layout预测颜色等属性并渲染，并具有以下优点：

· 支持属性全面且灵活，如对于文字不仅预测颜色，还预测字体、是否渐变、渐变色、是否描边、描边颜色等；
· 预测各渲染属性时，可考虑背景的局部和整体颜色分布、风格等，以保证文字的可读性和整体的和谐性；
· 除内容因素外，预测属性时还会考虑各元素间的搭配。如多行文字间预测基本一致的颜色和字体家族，但面积较大的文字区域字体偏粗（元素间在相似性与区分性间取得平衡）
具体渲染结果见下文效果部分。

业务赋能效果

整体效果展示

将上述全流程串联，便可为指定商品无须模板、无须设计师、全自动地制作出一张完整创意，整体效果如下（随机抽取商品类目）：
在这里插入图片描述

下面展示了商品的原始图片和用这些图片作为素材制作的创意图。左图为原始图片，右图为创意图。可以看到我们的方法制作出了和人工制作图片类似质量的图片，很好的保留了图片的主体，文字搭配也比较合理，也不会出现直接剪裁将文本行裁断的情况，“体面”地自动适配所需尺寸。
在这里插入图片描述

业务赋能结果

我们在阿里妈妈广告产品——引力魔方的首页焦点图、首猜信息流上都进行了大规模投放实验。我们对比的baseline是线上智能创意的主流量（即依赖模板的动态描述创意），对齐同一个item。结果显示，首焦资源位上 CTR +19.26%，首猜资源位上 CTR +18.94%。

下面是部分制作结果对比图，第一行为本系统生成的不依赖模板的创意，第二行为根据模板生成的动态描述创意。可以看出新算法摆脱了模板的样式束缚，做到了“每图一设计”，生成的布局更合理，相比较模板创意的固定位置，新算法可以更好地避开主体。使用的文案也相比固定坑位的文案更具有表现力。除此之外，渲染的颜色搭配更加丰富，衬底的出现使得文案主次分明。
在这里插入图片描述

总结

综上所述，我们的新一代图文创意制作系统相比上一代动态描述创意在技术和业务上都有着明显的进步。新系统第一次实现了"模板自由"，即一方面是从商品输入到创意输出的全过程自动化，完全不需要设计师或是运营的参与，真正意义上实现了无须模板的创意生成，另一方面则是模型在学习过程中积累了大量创意的设计经验，隐式地建立了一个"无穷无尽的模板库"，可根据原始图像、文案素材特点量体裁衣制作出融合感更高的创意。

另外，我们的系统模块分工清晰明确，相比于黑盒制作可解释性更强。更为重要的是，我们支持任意阶段的交互式修改与编辑，无论是想要挪一挪布局框的位置，还是想自己设置文案，抑或是修改文案的颜色，该系统都可以很好的支持，甚至可以在用户修改后自适应地生成新的符合要求的创意。我们相信，这种交互形式一定可以给图文创意制作带来新的思路，真正实现从“设计指导算法”到“算法辅助设计”的转变。

关于我们

我们是阿里妈妈创意&视频平台，专注于图片、视频、文案等各种形式创意的智能制作与投放，以及短视频广告多渠道投放，产品覆盖阿里妈妈内外多条业务线，欢迎各业务方关注与业务合作。同时，真诚欢迎具备CV、NLP和推荐系统相关背景同学加入！

投递简历邮箱：
alimama_chuangyi@service.alibaba.com

Reference

文中涉及的组内论文：

[1] Gangwei Jiang, Shiyao Wang, Tiezheng Ge, Yuning Jiang, Ying Wei, Defu Lian: Self-Supervised Text Erasing with Controllable Image Synthesis. 【ACM MM 2022】
[2] Ye Ma, Jin Ma, Min Zhou, Quan Chen, Tiezheng Ge, Yuning Jiang, Tong Lin: Boosting Image Outpainting with Semantic Layout Prediction. 【arXiv2021】
[3] Min Zhou, Chenchen Xu, Ye Ma, Tiezheng Ge, Yuning Jiang, Weiwei Xu: Composition-aware Graphic Layout GAN for Visual-textual Presentation Designs. 【IJCAI 2022 AI & Arts Track】
[4] Yunning Cao, Ye Ma, Min Zhou, Chuanbin Liu, Hongtao Xie, Tiezheng Ge, Yuning Jiang: Geometry Aligned Variational Transformer for Image-conditioned Layout Generation. 【ACM MM 2022】
[5] Yiqi Gao, Xinglin Hou, Yuanmeng Zhang, Tiezheng Ge, Yuning Jiang, Peng Wang: CapOnImage: Context-driven Dense-Captioning on Image. 【arXiv2022】

https://mp.weixin.qq.com/s/VdwPI3PUfwItRuErt5G3gA