Rich Human Feedback for Text-to-Image Generation 读论文笔记
摘要
Motivation:探索如何优化如Stable Diffusion T2I生成模型的优化问题,因为这些模型都会有诸如伪影,与文字描述不匹配和美学质量低等问题。本文参考大语言模型强化学习的方式,训练奖励模型来改进生成模型。
Contribusion:在收集的数据集(RichHF18K)收集feedback,通过选择高质量的训练数据和改进来生成模型,或者使用预测的heatmap来创建掩码,修复有问题的区域。
- Rich Human Feedback dataset
- 一个多模态Transformer模型对生成的图像进行丰富的反馈预测
- improve method:方式:1. 标记有问题的图像区域 2.标记文本描述不匹配的prompt(被误报或漏报)3. 使用预测的分数来帮助微调图像生成模型
方法细节
收集数据的过程
RichHF-18K数据集:
每个图片包含的标注和分数:
- 图像高度的1 / 20为半径标记伪影和错位标注(两个heatmap,implausibility and misalignment heatmap)。
- 没有对齐的关键词的标注
- 四个细粒度的分数(合理性、一致性、美观性、总体评分)
人类反馈确认
每个图像-文本对由三个标注员进行注释,所以对于分数直接做平均,文字对齐标注采取多数原则,点标注使用每个点区域的平均值(每个点被转换为热图上的一个磁盘区域,然后计算三个热图之间的平均热图)
数据集
在Pick-a-Pic dataset数据集选取的子集。选取的部分是照片等级的图像。为了平衡类别,使用PaLI visual question answering (VQA) model从Pick - a - Pic数据样本中提取一些基本特征。
VQA
是一种用于能够结合大语言模型和图像理解技术的多模态模型。
使用方法
输入问题:
- 图像有真实感吗
- 那个类别最能描述图像?在"人"、“动物”、“物”、“室内场景”、"室外场景"中任选其一
18K的数据集,16K作为训练集,1K作为验证,1K作为测试。
数据分析
分数统计
s − s min s max − s min = s − 1 5 − 1 \frac{s - s_{\text{min}}}{s_{\text{max}} - s_{\text{min}}} = \frac{s - 1}{5 - 1}