微软联手清华，打造VisionPrefer：AI注释让文本到图像生成的对齐更符合人类偏好！

最新推荐文章于 2024-05-03 23:37:05 发布

DeepVisionary

最新推荐文章于 2024-05-03 23:37:05 发布

阅读量1k

点赞数 20

文章标签：人工智能

本文链接：https://blog.csdn.net/math_bearrr/article/details/138215187

版权

DeepVisionary 每日深度学习前沿科技推送&顶会论文分享，与你一起了解前沿深度学习信息！

Multimodal Large Language Model is a Human-Aligned Annotator for Text-to-Image Generation

在这里插入图片描述

引言：人工智能在图像生成领域的新进展

近年来，人工智能在图像生成领域取得了显著的进步。特别是在文本到图像的生成模型方面，如大规模扩散模型（例如Imagen和DALL·E2），已经能够在提供新颖文本提示的情况下生成高质量和具有创造性的图像。然而，尽管取得了这些进展，当前的生成模型仍面临着一些挑战，例如可能生成与人类偏好偏离的不正确或不安全的内容。

为了解决这些问题，研究者们开始探索使用人类反馈来对这些模型进行微调，以更好地与人类偏好对齐。这种方法被称为从人类反馈中学习的强化学习（RLHF）。此外，最近的研究表明，使用由人工智能生成的数据作为训练信号，是一个有前景的途径，可以在视觉生成模型中实现与人类偏好更好的对齐。

在这一背景下，我们介绍了一个新的项目——VisionPrefer，这是一个公开可用的、由AI生成的数据集，它包含了数百万条关于模型生成图像的细粒度人类偏好信息。与现有的人类偏好数据集相比，VisionPrefer具有可扩展性、细粒度的偏好注释和全面的反馈格式等优点。

在这里插入图片描述

论文标题：Multimodal Large Language Model is a Human-Aligned Annotator for Text-to-Image Generation

机构：Microsoft Research Asia, Beijing, China; Tsinghua University, Beijing, China

论文链接：https://arxiv.org/pdf/2404.15100.pdf

VisionPrefer数据集的构建与特点

在这里插入图片描述

1. 数据集简介：由多模态大型语言模型注释的细粒度偏好数据集

VisionPrefer是一个公开可用的AI生成的数据集，它包含了数百万条关于模型生成图像的细粒度人类偏好信息。这些数据是通过多模态大型语言模型（MLLMs）的注释得来的，这些模型在大量的文本和图像对上进行了训练，显示出在图像理解方面的强大能力。

在这里插入图片描述

2. 数据集优势：规模大、注释细致、反馈全面

VisionPrefer数据集具有以下几个优势：

规模大：数据集包含1.2M的人类偏好选择，涵盖179K对图像，是迄今为止最大的文本到图像生成偏好数据集。
注释细致：数据集采用了详细的偏好注释指南，涵盖了四个不同的方面：遵循提示（Prompt-Following）、真实度（Fidelity）、美观（Aesthetic）和无害性（Harmlessness）。
反馈全面：与现有的基准相比，VisionPrefer不仅提供排名，还要求AI注释者分配数值偏好分数，并为每个注释方面提供文本解释。

在这里插入图片描述

3. 构建流程：从文本提示生成到图像生成再到偏好生成

构建VisionPrefer的流程主要包括三个步骤：

文本提示生成：首先使用DiffusionDB作为基础提示基准，通过AI模型对这些提示进行润色和NSFW过滤，以确保提示的无偏性和安全性。
图像生成：根据生成的文本提示，使用不同的文本到图像生成模型来生成图像。为了保证评估的多样性和广泛性，每个提示会生成四幅图像。
偏好生成：最后，使用最先进的多模态大型语言模型，如GPT-4 Vision，来对生成的图像进行评分、排名和文本批评，涵盖四个不同的方面。

在这里插入图片描述

VP-Score奖励模型的开发与应用

1. 模型结构与训练设置

VP-Score是一个基于VisionPrefer数据集训练的奖励模型，用于评估生成图像的人类偏好可能性。该模型采用与ImageReward相同的模型结构，使用BLIP作为骨干网络。在训练过程中，将VisionPrefer中的偏好注释作为排名来处理，通过比较不同图像的偏好得分来优化模型。

在这里插入图片描述

2. 在现有人类偏好数据集上的评估结果

VP-Score在几个现有的人类偏好数据集上进行了评估，包括ImageRewardDB、HPD v2和Pick-a-Pic。结果显示，VP-Score与人类偏好的相关性竞争力强，甚至在某些数据集上超过了现有的人类偏好奖励模型。这证明了利用AI注释者提供的细粒度反馈可以有效地学习人类偏好奖励模型。

在这里插入图片描述

强化学习方法提升生成模型

1. 使用PPO和DPO方法优化的细节

在文献中，提到了两种强化学习方法：Proximal Policy Optimization (PPO) 和 Direct Policy Optimization (DPO)，用于优化文本到图像的生成模型。PPO方法首先基于偏好数据建模奖励函数，然后解决正则化值函数最大化问题以获得基于奖励模型提供的奖励的微调策略。例如，ReFL使用人类偏好训练的奖励模型ImageReward进行微调。而DPO方法则直接使用策略梯度来最大化基于反馈训练的奖励，如DPOK和ZO-RankSGD所示，它们在在线方式中使用人类排名反馈优化扩散。

在这里插入图片描述

2. 优化后模型在不同数据集上的表现

在使用PPO和DPO方法优化后，模型在多个数据集上的表现有了显著提升。例如，在使用VisionPrefer数据集进行训练后，这些优化模型在图像生成的文本对齐、美学质量、保真度和无害性方面表现更佳。特别是在与人类偏好数据集（如ImageRewardDB、HPD和Pick-a-Pic）进行比较时，使用VP-Score优化的模型显示出与人类评价者相当的偏好预测准确性。

在这里插入图片描述

实验结果与分析

1. 人类评价研究：优化后的生成模型与其他模型的对比

通过人类评价研究，优化后的生成模型（使用VP-Score进行微调）与其他基于大规模人类偏好数据集训练的模型相比，展示了更高的胜率和平局率。例如，在PPO和DPO实验中，VP-Score优化的生成模型的胜率超过了50%，这表明VP-Score是一个可靠且具有竞争力的奖励模型，能够有效地提升生成模型的人类偏好对齐性。

在这里插入图片描述

2. 定性结果展示：优化模型生成的图像与输入提示的一致性

从定性结果来看，使用VP-Score优化的生成模型能够产生更符合输入提示的图像。这些图像在美学、保真度和无害性方面表现出更高的一致性和质量。例如，图像展示了更丰富的细节、更符合人类审美的色彩和构图，同时避免了生成不当内容。这些结果进一步证实了使用由多模态大语言模型（如GPT-4 Vision）生成的偏好数据进行模型训练和优化的有效性。

在这里插入图片描述

GPT-4 Vision作为偏好注释者的有效性分析

1. 注释能力的验证：与其他大模型的对比

GPT-4 Vision作为一种多模态大型语言模型，在图像理解方面已展现出强大的能力。在VisionPrefer数据集的构建中，GPT-4 Vision不仅提供了标量分数，还包括了偏好排名和文本批评，这些反馈涵盖了遵循提示、美学、忠实度和无害性等多个方面。与其他模型如CLIP ViT-H/14、ImageReward和HPS v2等相比，GPT-4 Vision在偏好预测准确性上展现出了竞争力。例如，在ImageRewardDB数据集上，VP-Score模型显示出与人类注释者相媲美的相关性，这证明了GPT-4 Vision在细粒度偏好注释方面的高效性。

在这里插入图片描述

2. 提高注释精度的方法：评分反馈与排名反馈的效果比较

在使用GPT-4 Vision进行注释时，研究表明评分反馈通常比排名反馈更为准确。例如，在ImageRewardDB和HPD数据集上进行的测试显示，使用评分反馈的准确性普遍高于排名反馈。此外，调整模型的温度参数τ可以进一步优化注释的准确性和一致性。较低的τ值通常会导致更可预测和一致的输出，从而提高注释的准确性。

在这里插入图片描述

总结与未来方向

1. VisionPrefer和VP-Score的贡献与限制

VisionPrefer通过集成AI生成的细粒度反馈，为文本到图像生成模型提供了一个高质量的训练和微调平台。VP-Score作为基于此数据集训练的奖励模型，展示了与人类偏好高度相关的性能。然而，这些研究主要集中在通过AI进行注释的可行性上，未来研究可以探索如何更有效地利用文本解释数据，以进一步提高模型的解释能力和透明度。

在这里插入图片描述

2. 文本解释数据的潜在应用及未来探索方向

尽管VisionPrefer提供了丰富的文本批评数据，但目前这部分数据的潜力尚未被完全挖掘。未来的研究可以探索如何结合这些文本数据来提升模型的自我解释能力，使生成的图像不仅在视觉上符合人类偏好，同时也能在文本层面提供更丰富的信息。此外，考虑到多模态模型在处理复杂数据时的优势，未来的工作可以探索在更多的应用场景中，如视频生成和虚拟现实等，应用这些技术来提升用户体验和模型的实用性。

在这里插入图片描述

关注DeepVisionary 了解更多深度学习前沿科技信息&顶会论文分享！

DeepVisionary

关注

20
点赞
踩
8

收藏

觉得还不错? 一键收藏
1
评论
微软联手清华，打造VisionPrefer：AI注释让文本到图像生成的对齐更符合人类偏好！

1. VisionPrefer和VP-Score的贡献与限制VisionPrefer通过集成AI生成的细粒度反馈，为文本到图像生成模型提供了一个高质量的训练和微调平台。VP-Score作为基于此数据集训练的奖励模型，展示了与人类偏好高度相关的性能。然而，这些研究主要集中在通过AI进行注释的可行性上，未来研究可以探索如何更有效地利用文本解释数据，以进一步提高模型的解释能力和透明度。2. 文本解释数据的潜在应用及未来探索方向。
复制链接

扫一扫