来自清华、西交大、伊利诺伊厄巴纳-香槟分校、中科院、旷视的研究人员共同推出了一项新基准DreamBench++。
面对层出不穷的图像生成技术,一个新问题摆在眼前:
缺乏统一标准来衡量这些生成的图片是否符合人们的喜好
对此,来自清华、西交大、伊利诺伊厄巴纳-香槟分校、中科院、旷视的研究人员共同推出了一项新基准DreamBench++。
通过收集不同的图像和提示,团队利用GPT-4o实现了符合人类偏好的自动评估。
简单来说,通过精心设计prompt以及引入思维链提示和情境学习,团队让GPT-4o在图像评估过程中学会了像人类一样思考