【AGI-Eval评测报告 NO.3】第一手实测GPT-4o文生图能力！最权威报告输出

最新推荐文章于 2025-04-25 15:37:49 发布

AGI_Eval

最新推荐文章于 2025-04-25 15:37:49 发布

阅读量711

点赞数 13

文章标签： agi 人工智能计算机视觉

本文链接：https://blog.csdn.net/AGI_Eval/article/details/146589180

版权

最近模型都在集中发布，才评完DeepSeek V3-0324版本，接踵而来的就是GPT-4o的图像生成能力的升级以及Gemini-2.5-pro版本的发布，最近我们也在马不停蹄的进行评测分析中，下面可以看看我们最新的关于GPT-4o图像生成能力的评测。

图片

1.GPT-4o的发布信息

2.AGI-Eval图像生成能力评测分析

2.1 评测结论

2.2评测说明

2.3 综合维度表现

2.4 GPT4o具体表现分析

3.GPT-4o VS 其他模型实测对比

01 GPT-4o的发布信息

25 日 Open AI 宣布将自己迄今为止最先进的图像生成器构建到 GPT‑4o 中。使用能够实现精确、准确、逼真的输出的原生多模式模型来解锁有用且有价值的图像生成。此次发布的报告中能和其他多模态模型对比突出的亮点：

1.可以在聊天环境中基于图像和文本进行构建，从而确保始终保持一致性。

2.同时GPT‑4o 的图像生成遵循详细的提示，注重细节。其他系统在处理约 5-8 个对象时会遇到困难，而 GPT‑4o 可以处理多达 10-20 个不同的对象，对象与其特征和关系的更紧密绑定可以实现更好的控制。

image.jpeg

02 AGI-Eval图像生成能力评测分析

2.1 评测结论

实际GPT‑4o 的图像生成能力如何，AGI-Eval大模型评测团队第一时间开始了评测，得出以下评测结果：

GPT-4o文生图能力全维度排名第一，且综合得分显著高于第二名Dreamina2.1。
同属于原生多模态模型的Gemini-2.0-Flash表现相对，排名为第11名，与DALLE3，MJ等模型在同一水位。
原生多模态模型在结构化生成(图表、字符)和常识推理任务上有更好的表现，且GPT-4o在创意设计类任务（海报、插画）上明显强于业界其他模型。

参与对比模型基础信息

image.jpeg

注释1：不均匀：简单、清晰的prompt生成速度10s内，含推理类prompt生成速度120s左右。

注释2：在实际生成时，仅有Gemini会根据任务的复杂性（是否涵盖分析推理为准）在生成速度上表现出明显的差异（来自人工爬取实际体验）。

注释3：因GPT-4o仅网页端暂不提供API，所以本次测评从文生图V6评测集中进行采样评测能力不同能力水位。待开放API后可补充自动评测结果，以及本次评测暂不包含多轮编辑图像能力，仅在单图维度对各类能力进行评测。

想获得最新模型评测报告，记得关注我们哦~

2.2 评测说明

此次评测的测试基准为人工评测，采用AGI-Eval社区的私有自建评测集，以快速反应模型能力水位为主，暂不具备对同梯队的模型进行精细区分。

评测数据集：采样全量人工评测集，考察生成能力项包括实体生成、人像、风格&主题等，共计42条评测数据。
评测方法：采用人工评测的方式，在给定prompt和对应的图片上结合打分标准，对图片在图文一致性、图像质量维度进行1分~5分打分，并再结合图片整体生成质量给出综合评分。最终结果取多标均值代表模型在主观体感上的综合表现。

此次数据集中包含9个标签分类（主体、事件、场景、风格、文化、主题等），其中占比较高的3个标签分别是：

主体占比最高达到48%，主要包括人物、建筑物，以及与人产生交互的其他日常物品，如餐厨用品、动物、日常用品、食物等；

其次为事件，包括日常人物行为如行走、吃东西、学习、情感表达，现实世常见现象如事件推测、物理模拟等以及其他事件；

场景包括现代城市以及其他自然场景。其中现代城市相对集中如街道、道路、城市，自然场景种类相对丰富如草地、沙漠、山野、海面、江河等多个类别。

注释1：图文一致性：评估图片是否全面包含文本提到的信息，能否精确地理解文本中的字面意义。需要准确理解用户prompt中的每一个要求和细节：包括对物体、人物、场景、风格等所有相关要素的描述。

注释2：图像质量：评估图像生成合理性、真实性水平，关注生成的图像在逻辑、结构、设计等方面是否符合常规的要求，例如：是否符合物理规律，是否存在形变、畸形、粘黏。生成的图像被识别为AI生成的难度，有无明显的拼接痕迹等。

2.3 文生图模型评测榜单

GPT-4o模型的综合分数最高，且在图文一致性、图像质量维度上均领先于其他模型，整体性能最佳。其他模型的分数相对接近，竞争较为激烈；
图文一致性维度上除GPT-4o模型，wanx_2.1_plus排名第二，其次为wanx_2.1_turbo（阿里云接入）、Image-01（Minimax）、ideogram2；
图像质量维度上GPT-4o领先优势更明显，其次为Kolors1.5、Image-01（Minimax）、flux.1.dev；

整体表现相对均衡的模型是flux.1.dev、midjourney-v6.1，在维度上差异较大的模型是wanx_2.1_plus、dalle3。

图片

image.jpeg

2.4 GPT4o具体表现分析

1. 优势维度：GPT-4o在创意设计、复杂实体生成、学科知识、字符图表中均有突出表现；

在字符生成上，过往的生图模型会存在字母畸形、字符混乱的问题（包括Gemini-2.0-Flash），GPT-4o模型生图中没有这类问题且生成的字体也更加美观；
在图表生成上，GPT-4o和Gemini-2.0-Flash均有更好的表现，表格结构清晰、美观，对比其他生图模型则是无法生成；
在复杂人像生成上，GPT-4o的生图合理性上表现更好，没有出现大幅度的肢体畸形、五官扭曲现象，Gemini-2.0-Flash目前还做不到。

2. 劣势维度：GPT4o在多图生成上存在理解偏差，导致指令遵循能力下降，以及在部分图像中依然存在生图类模型均存在的真实性问题有轻微AI感；

03 GPT-4o VS 其他模型实测对比

下面也将从创意设计、插画、实体生成、多图生成等八大生成任务进行实际案例展示和对比分析。

以下实测排序从左到右依次为GPT-4o->Gemini-2.0-Flash->Dreamina2.1->Flux.1.1 pro

创意设计

prompt：Please create this image：A movie poster of mountain and sea（一张描绘山和海的电影海报）

一致性维度：GPT-4o与Gemini-2.0-Flash满足“海报”定义（即需要生成文字），其余模型不满足；

图像质量维度：GPT-4o生成的单词正确，整体合理性好；Gemini-2.0-Flash疑似试图生成中文，但字符乱码，Dreamina2.1与Flux.1.1 pro合理性维度均无明显问题，但Flux.1.1 pro的真实感较差。

image.jpeg

从上到下依次为GPT-4o->Gemini-2.0-Flash->Dreamina2.1->Flux.1.1 pro

插画

prompt：Please create this image：A painting depicting a crowd on a busy street, with the focus on a street performer, deliberately blurring the foreground and background crowds to create a sense of depth and spatial layering.（一幅插画，描绘一条繁忙街道上的人群，将焦点放在一个街头艺人身上，使前景和背景的人群适当模糊，产生深度感和空间层次）

一致性维度：GPT-4o准确表达“焦点”和“空间层次”，完全符合要求；Gemini-2.0-Flash未明确体现出“街头艺人”，也不符合插画风格，其余模型未体现出“前景和背景的人群适当模糊”；

图像质量维度：GPT-4o画风下可接受背景人物模糊，整体合理性较好；Gemini-2.0-Flash右侧人物与箱子交叠处、疑似遮阳伞重叠处不合理较明显，其余模型人物手部、远景较不合理。

image.jpeg

从上到下依次为GPT-4o->Gemini-2.0-Flash->Dreamina2.1->Flux.1.1 pro

实体生成

prompt：Please create this image：A tea pot with the Yin Yang Bagua symbol imprinted on it, made of purple clay material. There is a tea cup next to it, and it is filled with tea.（一把印有阴阳八卦图的茶壶，茶壶是紫砂材质，旁边还有个茶杯，并且倒满茶了。）

一致性维度：GPT-4o完全符合prompt要求，是目前唯一将“阴阳八卦”生成正确的模型，其余模型则不完全符合。

图像质量维度：GPT-4o的合理性、真实性均体现较好，实体的材质与光影真实；Gemini-2.0-Flash的真实性稍有欠缺，其余模型生成的壶身上的花纹不合理较明显。

image.jpeg

从上到下依次为GPT-4o->Gemini-2.0-Flash->Dreamina2.1->Flux.1.1 pro

多图生成

prompt：Please create this image：Create a set of pictures depicting a person walking on the street when suddenly it starts raining. As they didn't carry an umbrella, they end up getting drenched like a wet chicken. Showcase a humorous and comical atmosphere in a stick figure style.（生成一组图片，展示一个人走在路上忽然开始下雨了，因为没带伞最终被淋成了落汤鸡，用简笔画风格体现出滑稽搞笑的氛围。）

一致性维度：GPT-4o能正确理解“getting drenched like a wet chicken”，风格与粗粒度情感都表现较好，完全符合要求；Gemini-2.0-Flash与Dreamina2.1未生成多图，且错误理解“a wet chicken”；Flux.1.1 逻辑较为混乱，未能体现“没带伞”和“淋湿”之间的关系。

图像质量维度：GPT-4o画风合理性较好，Gemini-2.0-Flash与Dreamina2.1因误生成鸡导致画面整体合理性较差，Flux.1.1 pro人物与雨伞交互处合理性较差。

image.jpeg

从上到下依次为GPT-4o->Gemini-2.0-Flash->Dreamina2.1->Flux.1.1 pro

学科知识

prompt：Please create this image：Can you generate an analysis chart of Earth's crust structure for Xiao Ming, who is starting to study geography but suddenly forgot the relevant knowledge while reviewing?（小明开始学习地理课程，但是复习时突然忘记地壳结构的相关知识，你可以给小明生成一张地壳结构分析图吗？）

一致性维度：地壳结构分析图存在2D与3D的形式，因此基本形态均能认可，但在专业知识上，GPT-4o能给出正确分层及标注，优于其他模型。

图像质量维度：GPT-4o生成的单词正确，地壳结构大体合理，其他模型的字符乱码及结构错乱较明显。

image.jpeg

从上到下依次为GPT-4o->Gemini-2.0-Flash->Dreamina2.1->Flux.1.1 pro

常识推理

prompt：Please create this image：Two doctors riding the tallest animal in the world.（两个医生骑着现今世界上最高的动物。）

一致性维度：GPT-4o与Gemini-2.0-Flash推理正确，给出的是符合prompt要求的长颈鹿；Dreamina2.1推理出错，Flux.1.1 pro疑似自创生物，未进行推理。

图像质量维度：GPT-4o出现听诊器、人物手指的细节问题，整体真实性较好；Gemini-2.0-Flash与Dreamina2.1的人物面部、肢体畸形较明显；Flux.1.1 pro人物无明显畸形，但因推理出的生物不符合现实世界，也视为合理性扣分。

image.jpeg

从上到下依次为GPT-4o->Gemini-2.0-Flash->Dreamina2.1->Flux.1.1 pro

复杂人物生成

prompt：Please create this image：Real Photography: In a lively hotpot restaurant, five young people are gathered together, enjoying a hotpot meal. Various side dishes and condiments are spread out on the table, while their faces are filled with joy and smiles.（真实摄影，一家热闹的火锅店里，5个年轻人围在一起吃火锅，各种配菜和调味品铺在桌子上，脸上充满了喜悦和笑容。）

一致性维度：GPT-4o、Dreamina2.1、Flux.1.1 pro均符合prompt基本要求；在“热闹的火锅店”氛围体现中，GPT-4o和Flux.1.1 pro较好；Gemini-2.0-Flash生成人数出错。

图像质量维度：GPT-4o仅筷子及菜品细节存在不合理，其他模型均存在不同程度的人物手部扭曲畸形，不合理程度相对较严重；同时GPT-4o的光影效果、人物皮肤质感等真实性较好，其他模型则在质感上稍有欠缺。

image.jpeg

从上到下依次为GPT-4o->Gemini-2.0-Flash->Dreamina2.1->Flux.1.1 pro

文字图表

prompt：Please create this image：Design a grid chart to record students' final grades, with each column clearly differentiated by colors. The first column is "Name," the second column is "Mathematics," and the third column is "Science."（设计一个方格图表，记录学生的期末成绩，要求每一列使用明显的颜色区分，第一列是“姓名”，第二列是“数学”，第三列是“科学”。）

一致性维度：GPT-4o与Gemini-2.0-Flash完全符合prompt要求，Dreamina2.1和Flux.1.1 pro则仅能体现“方格图表”的大致模式，无法将字符与表格内正确位置对应。

图像质量维度：GPT-4o与Gemini-2.0-Flash单词生成正确，表格清晰，Dreamina2.1和Flux.1.1 pro单词乱码错误明显，对图表整体表现较差。

image.jpeg

从上到下依次为GPT-4o->Gemini-2.0-Flash->Dreamina2.1->Flux.1.1 pro

之后我们会持续跟进最新的模型更新，持续输出最快、最新、最权威的评测报告，让大家掌握一手的模型能力信息。别忘了关注我们哦！

下一期评测报告预告抢先告诉大家，Gemini-2.5-Pro！！想看的朋友别忘了关注我们哦！期待下期和大家的分享。

往期回顾

1.【AGI-Eval行业动态 NO.6】Manus爆火48小时：一场关于AI未来的“乐观”与“警惕”

2.【AGI-Eval行业动态 NO.5】今年太卷了，30+的模型已发布，还有10款模型即将发布！

3.【AGI-Eval行业动态 NO.4】Claude 3.7 Sonnet将模型行业卷向了新高度，但背后仍然还有新的问题

我们也在探索Agent能力评测的新方式，同时文末也期待大家参与我们社群，一起探寻 AGI 的更多可能性，发现更多不一样的视角，提出问题才有机会解决问题。