论文速读|Human Preference Score: Better Aligning Text-to-Image Models with Human Preference
论文信息:
简介:
本文背景是深度生成模型的快速发展,尤其是文本到图像模型(text-to-image models)引起了公众的极大关注。这些模型能够根据文本提示生成图像,但在实际应用中,生成的图像往往与人类偏好不一致,例如生成的人物肢体和面部表情组合不自然。现有的评估指标,如Inception Score (IS) 和 Fréchet Inception Distance (FID),并不能很好地反映人类对图像的偏好。因此,本文旨在解决现有模型与人类偏好不一致的问题。
本文的动机在于现有的图像生成模型在实际应用中存在明显的局限性,即生成的图像与用户的实际偏好和意图不匹配。这不仅影响了用户体验,也限制了