Rich Human Feedback for Text-to-Image Generation 读论文笔记

摘要

Motivation:探索如何优化如Stable Diffusion T2I生成模型的优化问题,因为这些模型都会有诸如伪影,与文字描述不匹配和美学质量低等问题。本文参考大语言模型强化学习的方式,训练奖励模型来改进生成模型。

Contribusion:在收集的数据集(RichHF18K)收集feedback,通过选择高质量的训练数据和改进来生成模型,或者使用预测的heatmap来创建掩码,修复有问题的区域。

  • Rich Human Feedback dataset
  • 一个多模态Transformer模型对生成的图像进行丰富的反馈预测
  • improve method:方式:1. 标记有问题的图像区域 2.标记文本描述不匹配的prompt(被误报或漏报)3. 使用预测的分数来帮助微调图像生成模型

方法细节

收集数据的过程

RichHF-18K数据集
每个图片包含的标注和分数:

  • 图像高度的1 / 20为半径标记伪影和错位标注(两个heatmap,implausibility and misalignment heatmap)。
  • 没有对齐的关键词的标注
  • 四个细粒度的分数(合理性、一致性、美观性、总体评分)
    在这里插入图片描述

人类反馈确认

每个图像-文本对由三个标注员进行注释,所以对于分数直接做平均,文字对齐标注采取多数原则,点标注使用每个点区域的平均值(每个点被转换为热图上的一个磁盘区域,然后计算三个热图之间的平均热图)

数据集

在Pick-a-Pic dataset数据集选取的子集。选取的部分是照片等级的图像。为了平衡类别,使用PaLI visual question answering (VQA) model从Pick - a - Pic数据样本中提取一些基本特征。

VQA

是一种用于能够结合大语言模型和图像理解技术的多模态模型。

使用方法

输入问题:

  1. 图像有真实感吗
  2. 那个类别最能描述图像?在"人"、“动物”、“物”、“室内场景”、"室外场景"中任选其一

18K的数据集,16K作为训练集,1K作为验证,1K作为测试。

数据分析

分数统计

s − s min s max − s min = s − 1 5 − 1 \frac{s - s_{\text{min}}}{s_{\text{max}} - s_{\text{min}}} = \frac{s - 1}{5 - 1}

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值