Rich Human Feedback for Text-to-Image Generation 读论文笔记

hero poi

于 2024-06-21 16:40:39 发布

阅读量2.4k

点赞数 23

分类专栏：读论文文章标签：论文阅读

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_47183165/article/details/139854391

版权

Rich Human Feedback for Text-to-Image Generation 读论文笔记

摘要
方法细节
- 收集数据的过程
- 人类反馈确认
数据集
实验
- 模型
- 实验
- - Metrics
  - 量化结果
  - 定性分析
从反馈中学习

摘要

Motivation：探索如何优化如Stable Diffusion T2I生成模型的优化问题，因为这些模型都会有诸如伪影，与文字描述不匹配和美学质量低等问题。本文参考大语言模型强化学习的方式，训练奖励模型来改进生成模型。

Contribusion：在收集的数据集（RichHF18K）收集feedback，通过选择高质量的训练数据和改进来生成模型，或者使用预测的heatmap来创建掩码，修复有问题的区域。

Rich Human Feedback dataset
一个多模态Transformer模型对生成的图像进行丰富的反馈预测
improve method：方式：1. 标记有问题的图像区域 2.标记文本描述不匹配的prompt（被误报或漏报）3. 使用预测的分数来帮助微调图像生成模型

方法细节

收集数据的过程

RichHF-18K数据集：
每个图片包含的标注和分数：

图像高度的1 / 20为半径标记伪影和错位标注（两个heatmap，implausibility and misalignment heatmap）。
没有对齐的关键词的标注
四个细粒度的分数（合理性、一致性、美观性、总体评分）

人类反馈确认

每个图像-文本对由三个标注员进行注释，所以对于分数直接做平均，文字对齐标注采取多数原则，点标注使用每个点区域的平均值（每个点被转换为热图上的一个磁盘区域，然后计算三个热图之间的平均热图）

数据集

在Pick-a-Pic dataset数据集选取的子集。选取的部分是照片等级的图像。为了平衡类别，使用PaLI visual question answering (VQA) model从Pick - a - Pic数据样本中提取一些基本特征。

VQA

是一种用于能够结合大语言模型和图像理解技术的多模态模型。

使用方法

输入问题：

图像有真实感吗
那个类别最能描述图像？在"人"、“动物”、“物”、“室内场景”、"室外场景"中任选其一

18K的数据集，16K作为训练集，1K作为验证，1K作为测试。

数据分析

分数统计

$\frac{s - s_{\text{min}}}{s_{\text{max}} - s_{\text{min}}} = \frac{s - 1}{5 - 1}$

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。