NLP论文速读(CVPR 2024)|学习文本到图像生成的多维人类偏好

论文速读|Learning Multi-dimensional Human Preference for Text-to-Image Generation

论文信息:

图片

简介:

      本文讨论的是文本到图像生成领域中的一个关键问题,即如何准确评估由文本描述生成的图像质量。传统的评估方法主要依赖于统计指标,如Inception Score (IS)、Fréchet Inception Distance (FID)和CLIP Score等,但这些指标往往不能很好地代表人类的真实偏好。尽管有些工作尝试通过人工标注的图像来学习这些偏好,但它们通常将复杂的人类偏好简化为单一的总体评分,忽略了人类在评估图像时会从多个维度进行考量的事实。动机在于现有的文本到图像生成模型在创建高质量图像方面取得了显著进展,但在实际应用中往往未能与人类偏好对齐。此外,人类在评估图像时会从多个角度进行考量,例如图像的美观程度、与文本描述的一致性、细节的清晰度等,而单一

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值