NLP论文速读（CVPR 2024）|学习文本到图像生成的多维人类偏好

Power2024666

于 2024-11-24 14:16:11 发布

阅读量708

点赞数 14

分类专栏： NLP论文速读文章标签：自然语言处理学习人工智能深度学习计算机视觉机器翻译

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2401_85576118/article/details/144007183

版权

论文速读|Learning Multi-dimensional Human Preference for Text-to-Image Generation

论文信息：

简介：

本文讨论的是文本到图像生成领域中的一个关键问题，即如何准确评估由文本描述生成的图像质量。传统的评估方法主要依赖于统计指标，如Inception Score (IS)、Fréchet Inception Distance (FID)和CLIP Score等，但这些指标往往不能很好地代表人类的真实偏好。尽管有些工作尝试通过人工标注的图像来学习这些偏好，但它们通常将复杂的人类偏好简化为单一的总体评分，忽略了人类在评估图像时会从多个维度进行考量的事实。动机在于现有的文本到图像生成模型在创建高质量图像方面取得了显著进展，但在实际应用中往往未能与人类偏好对齐。此外，人类在评估图像时会从多个角度进行考量，例如图像的美观程度、与文本描述的一致性、细节的清晰度等，而单一

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。