论文将多模态可靠反馈网络(
RFNet
)结合到一个循环生成图片过程中,可以增加可用的广告图片数量。为了进一步提高生产效率,利用RFNet
反馈进行创新的一致条件正则化,对扩散模型进行微调(RFFT
),显著增加生成图片的可用率,减少了循环生成中的尝试次数,并提供了高效的生产过程,而不牺牲视觉吸引力。论文还构建了一个可靠反馈100
万(RF1M
)数据集,包含超过一百万张由人类标注的生成广告图片,帮助训练RFNet
准确评估生成图片的可用性,准确地反映人类的反馈。来源:晓飞的算法工程笔记 公众号
论文: Towards Reliable Advertising Image Generation Using Human Feedback
Introduction
一张引人注目的广告图片对电子商务的成功至关重要,因为它可以提高点击率(CTR
)。手工创作需要显著的人力成本,因此自动广告图片生成的需求正在上升。然而,先前的方法往往导致产品与背景视觉上的不匹配。最新的扩散模型提供了一种解决方案,与ControlNet
的结合显示出在保持产品细节不变的同时为产品创造和谐背景的潜力。
尽管生成模型在创造吸引人的背景方面有潜力,但存在如图1
所示的频繁生成低质量广告图片的情况,包括空间和尺寸不匹配、模糊不清和形状错觉等多种情况。这些有缺陷的图片可能导致顾客对产品的误解,降低购物体验质量,因此需要大量人力成本来检查生成的图片,限制了生成模型在广告图片制作中的广泛应用。因此,核心问题在于可用图片的生成率低,即如何建立一个可靠的广告图片生成流水线,能够生产出高可用率的图片。
一种自然的解决方案是通过重复生成图像直到获得可用图像(循环生成),因为生成过程中存在随机性。为了替代在这一重复过程中的人工检查,论文引入一种新的可靠反馈网络(RFNet
)作为人类检查员,评估生成的广告图片的可用性。由于仅依赖单一生成的图片,模型无法有效地获取关键信息,例如产品是什么以及产品在背景中的表现。因此,RFNet
集成了多种辅助模态,提供关键信息来判断不同情况下的可用性。同时,论文构建了一个大规模数据集,称为可靠反馈百万数据集(RF1M
),包括超过一百万张精心生成的广告图片,并配有丰富的人类注释,这对于准确训练RFNet
以反映人类反馈起到了关键作用。
虽然循环生成显著增加了可用图像的数量,但由于生成模型固有的能力不足,多次尝试会显著延长生成过程。利用人类反馈来增强扩散模型的能力提供了一种可行的选择,能够成功提升了生成图像的视觉质量。然而,生成图像的视觉质量和可用性之间存在权衡关系,例如,具有重复和简单背景的产品虽然可用率高,但美观度低。为了解决这个问题,论文提出了一种新的损失项,一致性条件(CC
)正则化 L C C L_{CC} LCC ,以抵消生成背景的统一性和退化,规避传统Kullback-Leibler
(KL
)正则化的对抗性质。通过利用这一正则化项,由RFNet
评估生成图像偏离可用类型的反馈直接反向传播到微调扩散模型(RFFT
),显著提升了生成广告图像的可用率,同时不影响其美学品质。这一方法为解决可靠广告图像生成的挑战提供了全面的解决方案。
论文的主要贡献包括:
- 一个广告图像生成解决方案,循环生成以及新型多模态模型
RFNet
,模拟人类反馈并有效利用各种模态来帮助区分细粒度的问题类型。 - 一个直观而有效的方法
RFFT
,利用人类反馈来精化扩散模型,同时采用创新的一致条件正则化来防止崩溃。 - 一个大规模多模态数据集
RF1M
,包含超过一百万张生成的广告图像,并带有丰富的注释。
Dataset
通过精细的人类反馈构建的可靠反馈一百万(RF1M
)数据集,作为检查和改进广告图像生成的关键资源。与当前的大规模图像生成数据集Laion-5B
、DiffusionDB
和Pick-a-Pic
相比,RF1M
专门为广告领域设计,解决了该领域对广泛数据资源的迫切需求。以下是对其构成、注释及其对社区潜在影响的深入分析。
该数据集使用京东商城广泛的产品收集而成。它包含1,058,230
个样本,每个样本由多种组成部分组成,旨在全面理解广告图像生成:
-
生成的广告图像及相应的透明背景产品图像,并由专业设计师精心设计的提示。
-
由在电子商务数据上训练的密集预测变压器和
U2-Net
创建的深度和显著性图像,以及产品标题,有助于检查生成的广告图像的可用性。 -
人工标注的标签,指示图像是否可用于广告目的。
这些元素共同为分析生成的广告图像提供了丰富的基础。图2
展示了一些示例。
参与标注的人员精通广告,并对广告图像的标准有深入的理解。在数据集中,样本已进一步细分为五个细粒度类别,如图1
所示:
- Available:适合用于广告目的的图像。
- Space Mismatch:产品与背景之间空间关系不合适的图像,例如产品的一部分漂浮着。
- Size Mismatch:产品大小与背景之间的差异,例如,按摩椅看起来比一个柜子小。
- Indistinctiveness:由于背景复杂或颜色相似,产品未能突出的图像。
- Shape Hallucination:背景错误地延伸了产品形状,增加了像底座或腿这样的元素。
RF1M
凭借其多模态设计和全面功能,是RFNet
训练和RFFT
的基石,并将进一步显著影响电子商务广告领域及更广泛的领域,具有以下三个亮点:
- Large scale:凭借其广泛的产品类别和图像类型,
RF1M
超越了以往的广告数据集BG60k
、PPG30k
和人类反馈数据集ImageRewardDB
、RichHF-18K
,同时与Pick-a-Pic
数据集规模相当,为RFNet
在多样化的广告图像生成任务中准确反映人类反馈提供了坚实的基础。 - Scalability:
RF1M
的多模态性质为RFNet
提供了充足的信息,使其能够精确地进行判断。除了生成可靠的广告图像外,它还支持高级图像理解和图像抠图等任务。这种灵活性确保了数据集能够满足不断变化的需求,并可以在广告以及其他领域广泛应用。 - Visual appeal:论文精心设计了针对产品特征的提示和生成模型,因此生成的图像具有令人满意的美学效果,能够吸引顾客的注意力。我们在京东进行了为期一周的在线A/B测试,从超过
6000
万次曝光中获得了2.2%
的点击率增长,凸显了这些图像的高质量,准确捕捉了用户的偏好。
Methodology
Preliminaries
论文生成广告图像的方法如图3
所示,从描述所需背景的文本提示和带有透明背景的产品图像 ( I o I_o Io ) 开始。文本提示被输入到Stable Diffusion
中,而 ( I o I_o Io ) 在输入ControlNet
之前经过cannny
边缘检测预处理。采用DDIM
作为去噪调度,第 ( t ) 步的潜在表示 ( x ) 计算如下:
KaTeX parse error: Undefined control sequence: \label at position 223: …}, t+1\right), \̲l̲a̲b̲e̲l̲{eq1} \end{alig…
其中, ϵ θ \epsilon_{\theta} ϵθ 表示预测添加噪声的模型, { α ˉ } \{\bar{\alpha}\} { αˉ} 是控制前向添加噪声过程的系数集合。为了保持产品的完整性并确保背景的连贯性,采用修补技术,将潜在表示 x t x_{t} xt 经过以下处理:
KaTeX parse error: Undefined control sequence: \label at position 69: …\otimes x_{o}, \̲l̲a̲b̲e̲l̲{eq2} \end{alig…
其中, x o x_{o} xo 是 I o I_o Io 的潜在表示, M M M 是产品的掩模, ⊗ \otimes ⊗ 表示逐元素乘法。在获得 x 0 x_0 x0 后,该潜在表示被转换为生成的图像 I g I_g Ig 。
Recurrent Generation with RFNet
由于固有的随机性,重复生成可以显著扩展可用图像的数量。为了自动化检查过程并消除人类参与,引入了一个多模型RFNet
用于精确确定生成的图像是否可用,如图4
所示。除了 I o I_o Io 和 I g I_g Ig ,RFNet
还结合了来自辅助模态的信息:
-
由深度估计模型生成的 I g I_g Ig 的深度图像 I d I_d Id ,突出显示了产品相对于背景的位置;
-
由显著性检测模型生成的 I g I_g Ig 的显著性图像 I s I_s Is ,勾画出产品的轮廓;
-
产品标题 C a p Cap Cap ,提供有关产品属性的见解。
I o I_o Io , I g I_g Ig , I d I_d I