1、SDXL-Lightning: Progressive Adversarial Diffusion Distillation
中文标题:SDXL-Lightning:渐进式对抗扩散蒸馏
简介:我们提出了一种名为扩散蒸馏的方法,它在一步/几步1024像素的文本到图像生成任务中实现了新的最先进水平。我们的方法将渐进学习和对抗性蒸馏相结合,以在生成质量和模式覆盖之间取得平衡。本文中,我们详细讨论了理论分析、鉴别器设计、模型公式和训练技术等方面。
我们将我们的扩散蒸馏模型命名为SDXL-Lightning,并将其与LoRA和完整的UNet权重一起开源。
2、Geometry-Informed Neural Networks
中文标题:几何信息神经网络
简介:我们引入了几何信息神经网络(GINN)的概念,它包括以下要素:(i)在几何约束下进行学习,(ii)使用神经场作为适当的表示形式,以及(iii)在处理常见的欠定系统时生成多样化的解决方案。值得注意的是,GINN的公式无需训练数据,因此可以看作是完全由约束驱动的生成建模。为了缓解模式崩溃的问题,我们引入了明确的多样性损失。
在约束的选择方面,我们特别考虑了组件的连通性,并使用莫尔斯理论将其转化为可微损失。通过实验证明,GINN学习范式在二维和三维场景中展现出了有效性,并且这些场景的复杂性逐渐增加。
3、Distinctive Image Captioning: Leveraging Ground Truth Captions in CLIP Guided Reinforcement Learning
中文标题:独特的图像字幕:在 CLIP 引导强化学习中利用真实字幕
简介:使用教师强制训练图像字幕模型会导致生成非常通用的样本,但在检索应用或为可访问性生成描述图像的替代文本方面,更具特色的字幕会非常有用。强化学习(RL)通过使用生成的字幕与输入图像之间的跨模态检索相似度分数作为奖励来指导训练,从而产生更具特色的字幕。最近的研究表明,预训练的跨模态检索模型可以用于提供此奖励,从而完全消除了参考字幕的需求。
然而,在本文中,我们认为基准真实字幕(GT)在这个RL框架中仍然是有用的。因此,我们提出了一种新的图像字幕模型训练策略,以不同的方式利用GT字幕。首先,我们使用GT字幕来训练一个简单的MLP鉴别器,作为正则化项,用于防止奖励欺骗并确保所生成的字幕的流畅性。这使得我们的方法能够扩展到多模态输入的文本生成对抗网络(GAN)设置。其次,GT字幕可以作为RL策略中的附加轨迹,通过引入由GT到图像的相似性加权的教师强制损失。这个目标作为基于GT字幕分布的附加学习信号。第三,GT字幕可以作为强基线,当将它们添加到用于计算提出的对比奖励的字幕池时,可以减少梯度估计的方差。
在MS-COCO数据集上的实验证明,我们提出的训练策略对于产生高度独特的字幕,并同时保持高写作质量非常有益。