CV论文--2024.2.19_self-play fine-tuning of diffusion models for text-CSDN博客

本文链接：https://blog.csdn.net/u012854516/article/details/136170011

1、Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation

中文标题：自我对弈微调扩散模型，用于文本到图像生成

简介：在生成人工智能（GenAI）领域，微调扩散模型仍然是一个未被充分探索的领域，特别是与大型语言模型（LLMs）微调所取得的显著进展相比。虽然最先进的扩散模型如稳定扩散（SD）和SDXL依赖于监督微调，但它们的性能在看到一定量的数据后不可避免地停滞不前。最近，强化学习（RL）已被用于通过人类偏好数据微调扩散模型，但每个文本提示需要至少两个图像（“获胜者”和“输家”图像）。在本文中，我们介绍了一种名为自我对弈微调扩散模型（SPIN-Diffusion）的创新技术，其中扩散模型与其早期版本进行竞争，促进迭代的自我改进过程。我们的方法提供了一种替代传统的监督微调和RL策略，显著提高了模型的性能和对齐度。我们在Pick-a-Pic数据集上的实验表明，SPIN-Diffusion在人类偏好对齐和视觉吸引力方面优于现有的监督微调方法，甚至在第一次迭代时就表现出色。到第二次迭代时，它在所有指标上都超过了基于RLHF的方法的表现，并且使用更少的数据就能取得这些结果。

2、GES: Generalized Exponential Splatting for Efficient Radiance Field Rendering

中文标题：GES: 通用指数分层技术用于高效的辐射场渲染

简介：3D高斯喷洒技术的进步显著提高了3D重建和生成的速度。然而，这种方法可能需要大量的高斯函数，从而导致内存占用过多。本文介绍了一种名为GES（广义指数喷洒）的新型表示方法，它利用广义指数函数（GEF）来模拟3D场景。相比于高斯喷洒方法，GES需要更少的粒子来表示场景，因此在效率上表现更优。此外，GES还具有即插即用替换功能，可作为高斯基础实用程序的替代方案。研究对GES在理论上、实际的1D设置和现实的3D场景中进行了验证。结果表明，GES能够更准确地表示具有尖锐边缘的信号，而这对于高斯函数来说是具有挑战性的，因为高斯函数具有固有的低通特性。经验分析显示，GEF在拟合自然发生的信号（如正方形、三角形和抛物线信号）方面优于高斯函数，从而减少了高斯喷洒所需的内存。通过频率调制损失的辅助，GES在新视角合成基准测试中表现出了竞争性能，同时内存占用仅为高斯喷洒的一半，并且渲染速度提高了高达39％。您可以在项目网站https://abdullahamdi.com/ges获取相关代码。

3、Any-Shift Prompting for Generalization over Distributions

中文标题：对分布的泛化进行任意移位提示

简介：图像-语言模型通过提示学习在许多下游视觉任务中取得了显著的进展。然而，传统的提示学习方法在训练分布上过度拟合，失去了对测试分布的泛化能力。为了改善在各种分布转移情况下的泛化能力，我们提出了任意转移提示：一种考虑提示学习期间训练和测试分布之间关系的通用概率推断框架。我们通过构建层次结构的训练和测试提示，明确地将训练和测试分布在潜空间中连接起来。在这个框架内，测试提示利用分布关系来指导CLIP图像-语言模型从训练到任何测试分布的泛化。为了有效地编码分布信息及其关系，我们进一步引入了一个具有伪转移训练机制的Transformer推理网络。该网络在前向传递中生成量身定制的测试提示，避免了测试时间的额外训练成本。对23个数据集的广泛实验表明，任意转移提示对于在各种分布转移情况下的泛化能力具有有效性。