MJ-BENCH: Is Your Multimodal Reward Model Really a Good Judge for Text-to-Image Generation?

本文是LLM系列文章,针对《MJ-BENCH: Is Your Multimodal Reward Model Really a Good Judge for Text-to-Image Generation?》的翻译。

MJ-BENCH:你的多模态奖励模型真的能很好地判断文本到图像的生成吗?

摘要

虽然DALLE-3和Stable Diffusion等文本到图像模型正在迅速激增,但它们经常遇到幻觉、偏见和产生不安全、低质量输出等挑战。为了有效地解决这些问题,至关重要的是根据多模态法官的反馈将这些模型与期望的行为相一致。尽管具有重要意义,但目前的多模态法官经常对其能力和局限性进行不充分的评估,这可能会导致不一致和不安全的微调结果。为了解决这个问题,我们引入了MJ-BENCH,这是一种新的基准测试,它结合了一个全面的偏好数据集来评估多模态判断,从四个关键角度为图像生成模型提供反馈:对齐、安全性、图像质量和偏误。具体来说,我们在偏好数据集的每个分解子类别上评估了各种多模态判断,包括基于CLIP的小型评分模型、开源VLM(如LLaVA家族)和闭源VLM(例如GPT-4o、Claude 3)。实验表明,闭源VLM通常提供更好的反馈,GPT-4o的平均表现优于其他裁判。与开源VLM相比,较小的评分模型可以提供更好的文本图像对齐和图像质量反馈,而VLM由于其更强的推理能力,可以提供更准确的安全性和生成偏差反馈。对反馈量表的进一步研究表明,VLM法官通常可以在自然语言(李克特量表)中提供比数值量表更准确、更稳定的反馈。值得注意的是,使用来自这些多模态法官的单独反馈对端到端微调模型进行的人工评估得出了类似的结论,进一步证实了MJ-BENCH的有效性。所有数据、代码、模型均可在ht

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值