人工智能研究组织公布文本生成图片模型排行榜：Midjourney仍然是最强王者

最新推荐文章于 2025-03-05 14:24:07 发布

花生糖@

最新推荐文章于 2025-03-05 14:24:07 发布

阅读量1.1k

点赞数 10

文章标签：人工智能 midjourney

本文链接：https://blog.csdn.net/u012842807/article/details/139985918

版权

人工智能研究组织Artificial Analysis推出了一项名为"Artificial Analysis Text to Image Leaderboard & Arena"（文本到图像排行榜与竞技场）的新举措，旨在全面评估这些模型的性能。

自两年前引入基于扩散的图像生成器以来，AI图像模型已经达到了接近照片级的质量。Artificial Analysis Text to Image Leaderboard & Arena致力于比较开源和专有的图像生成模型，根据人类偏好来确定它们的效果和准确性。

该平台的排行榜基于通过Artificial Analysis Image Arena收集的超过45，000个人类图像偏好，使用ELO评分系统进行更新。评测涵盖了多个领先的图像模型，包括Midjourney、OpenAI的DALL·E、Stable Diffusion和Playground AI等。

平台采用众包方式收集大规模人类偏好数据。参与者会看到一个提示词和两张生成的图像，然后选择最符合提示词的那张。每个模型会生成700多张涵盖不同风格和类别的图像，如人物肖像、群体、动物、自然和艺术等。收集的偏好数据用于计算每个模型的ELO分数，从而形成比较排名。

排行榜显示，虽然专有模型在性能上领先，但开源替代方案正变得越来越具有竞争力。Midjourney、Stable Diffusion3和DALL·E3HD等模型位居榜首，而开源模型Playground AI v2.5也取得了显著进展，超过了OpenAI的DALL·E3。

值得注意的是，图像生成模型的格局正在迅速变化。例如，去年还处于领先地位的DALL·E2，现在在竞技场中被选中的比例不到25%，已跌至排名最低的模型之列。

Artificial Analysis鼓励公众参与这项评测。用户可以访问Hugging Face上的排行榜，并通过Image Arena参与排名过程。完成30次图像选择后，参与者可以查看个性化的模型排名，从而获得针对自己偏好的洞察。

这一举措为理解和改进AI图像生成模型迈出了重要一步。通过利用人类偏好和严格的众包方法，该平台为领先图像模型的比较性能提供了宝贵的见解。随着该领域的不断发展，这类平台将在指导AI驱动的图像生成的未来发展和创新方面发挥关键作用。