CVPR最佳论文：探索RAHF模型捕捉人类反馈在T2I领域的创新实践

最新推荐文章于 2024-06-27 13:18:16 发布

AI记忆

最新推荐文章于 2024-06-27 13:18:16 发布

阅读量1.6k

点赞数 17

分类专栏：深度学习论文与相关应用文章标签： AIGC RAHF CVPR RLHF 文生图最佳论文

本文链接：https://blog.csdn.net/sunbaigui/article/details/139826235

版权

深度学习论文与相关应用专栏收录该内容

100 篇文章 226 订阅

订阅专栏

一、摘要

论文：Rich Human Feedback for Text-to-Image Generation，https://arxiv.org/pdf/2312.10240
代码：https://github.com/google-research/google-research/tree/master/richhf_18k

这篇论文《Rich Human Feedback for Text-to-Image Generation》由多个作者合作完成，主要来自加州大学圣地亚哥分校、谷歌研究院、南加州大学、剑桥大学和布兰迪斯大学。论文的核心内容是关于文本到图像（Text-to-Image, T2I）生成模型的最新进展和面临的挑战，挑战如生成图像的伪影/不合理性、与文本描述不一致以及美学质量低下。为了解决这些问题，作者们受到人类反馈强化学习（Reinforcement Learning with Human Feedback, RLHF）在大型语言模型中成功的启发，提出了一种新的方法来丰富反馈信号：通过标记图像中不合理或与文本不一致的区域，并注释文本提示中在图像中未被正确表示或缺失的词汇。作者们收集了18,000张生成图像的丰富人类反馈（RichHF-18K），并训练了一个多模态变换器来自动预测这些丰富的反馈。研究表明，预测的丰富人类反馈可以用来改进图像生成，例如，通过选择高质量的训练数据进行微调，或通过创建掩膜来修复问题区域。值得注意的是，这些改进可以推广到超出训练集中使用的模型范围，如Muse模型。此外，作者们还计划发布RichHF-18K数据集，以便社区进一步研究和开发。

二、核心创新

本文的核心算法创新主要体现在以下几个方面：

多模态Transformer模型（RAHF）：创新性地设计了一个多模态Transformer模型，用于自动预测丰富的人类反馈。该模型融合了图像和文本信息，通过自注意力机制来理解和预测人类对生成图像的评价。模型能够预测图像中不合理或与文本描述不一致的区域（通过热图表示），以及文本提示中未正确表示或缺失的概念（通过标记关键词）。
综合评分系统：引入了一套综合评分系统，包括图像合理性、文本-图像对齐、美学和整体评分，为评估生成图像提供了更丰富的维度。
面向多类型任务的模型设计（Augmented Prompt）：通过在文本提示中增加任务类型信息，模型能够为不同的预测任务生成特定的视觉特征图和文本编码，从而能share更多参数，减少模型的head数，提高特定任务的性能。
损失函数设计：为模型设计了一种复合损失函数，结合了像素级均方误差（MSE）损失、分数预测的MSE损失以及序列预测的教师强制交叉熵损失，以优化模型的预测性能。
数据集贡献和注释方法的创新：创建了RichHF-18K数据集，该数据集通过详细的人类反馈对生成的图像进行了注释，包括图像区域的标记和文本-图像不一致的关键词标注，这为模型训练提供了高质量的训练数据。

三、实验结果

a.）定性结果

本文的定性实验结果主要体现在以下几个方面：

分数预测（Score Prediction）：展示了模型预测的分数与人类标注者给出的分数之间的对比，如图7所示，其中包括合理性、美学、文本-图像对齐和整体评分的例子。
不合理/不一致热图预测（Implausibility/Misalignment Heatmap Prediction）：提供了模型预测的不合理和不一致热图的例子，如图5和图6所示，展示了模型如何识别图像中的特定区域，这些区域与文本提示不匹配或包含不合理的元素。
文本不一致关键词预测（Text Misalignment Prediction）：展示了模型预测的文本不一致关键词的例子，如图14所示，模型能够识别并预测人类标注者标记的文本中的不一致关键词。
图像生成改进（Image Generation Improvement）：展示了使用RAHF模型预测的分数和热图进行图像生成改进的例子，如图8和图9所示。这些例子说明了通过微调和区域修复（inpainting）技术，可以显著提高生成图像的质量。
人类评估（Human Evaluation）：提供了人类评估者对原始Muse模型和经过RAHF模型预测分数微调后的Muse模型生成的图像进行偏好选择的结果，如表5所示，显示了微调后的模型在图像合理性方面得到了改善。

b.）定量结果

本文中的定量实验结果主要集中在以下几个方面：

分数预测（Score Prediction）：使用Pearson线性相关系数（PLCC）和Spearman等级相关系数（SRCC）作为评估指标，RAHF模型在四个细粒度评分任务（图像合理性、文本-图像对齐、美学和整体评分）上的表现均优于基线模型（ResNet-50和PickScore）。
不合理热图预测（Implausibility Heatmap Prediction）：在不合理热图预测任务上，RAHF模型使用像素级均方误差（MSE）作为评估指标，并且在所有样本以及只有非空真实标注的样本上都报告了结果。此外，还使用了标准的显著性热图评估指标（如NSS/KLD/AUC-Judd/SIM/CC）来评估非空真实标注的样本。
文本不一致热图预测（Text Misalignment Heatmap Prediction）：类似于不合理热图预测，文本不一致热图预测也使用了MSE和显著性热图评估指标来衡量模型性能。
文本不一致序列预测（Text Misalignment Sequence Prediction）：对于文本不一致序列预测任务，采用了基于标记的精确度（Precision）、召回率（Recall）和F1分数来评估模型性能。

AI记忆

关注

17
点赞
踩
11

收藏

觉得还不错? 一键收藏
打赏
1
评论
CVPR最佳论文：探索RAHF模型捕捉人类反馈在T2I领域的创新实践

这篇论文由加州大学圣地亚哥分校、谷歌研究院等机构的研究人员合作完成，专注于文本到图像生成模型的改进。针对生成图像中存在的伪影、与文本不一致和美学质量问题，研究团队采用丰富人类反馈信号的方法，通过标记图像问题区域和文本中未准确表示的词汇，收集了18,000张图像的反馈（RichHF-18K）。他们训练了一个多模态变换器模型，自动预测反馈以提升图像生成质量，该方法在Muse等模型上验证了其有效性和泛化能力。研究还计划公开数据集，促进社区研究。
复制链接

扫一扫