【AGI-Eval评测报告 NO.3】第一手实测GPT-4o文生图能力!最权威报告输出

最近模型都在集中发布,才评完DeepSeek V3-0324版本,接踵而来的就是GPT-4o的图像生成能力的升级以及Gemini-2.5-pro版本的发布,最近我们也在马不停蹄的进行评测分析中,下面可以看看我们最新的关于GPT-4o图像生成能力的评测。

图片

图片

目录:

1.GPT-4o的发布信息

2.AGI-Eval图像生成能力评测分析

   2.1 评测结论

   2.2评测说明

   2.3 综合维度表现

   2.4 GPT4o具体表现分析

3.GPT-4o VS 其他模型实测对比

01 GPT-4o的发布信息

25 日 Open AI 宣布将自己迄今为止最先进的图像生成器构建到 GPT‑4o 中。使用能够实现精确、准确、逼真的输出的原生多模式模型来解锁有用且有价值的图像生成。此次发布的报告中能和其他多模态模型对比突出的亮点:

1.可以在聊天环境中基于图像和文本进行构建,从而确保始终保持一致性。

2.同时GPT‑4o 的图像生成遵循详细的提示,注重细节。其他系统在处理约 5-8 个对象时会遇到困难,而 GPT‑4o 可以处理多达 10-20 个不同的对象,对象与其特征和关系的更紧密绑定可以实现更好的控制。

image.jpeg

image.jpeg

02 AGI-Eval图像生成能力评测分析

2.1 评测结论

实际GPT‑4o 的图像生成能力如何,AGI-Eval大模型评测团队第一时间开始了评测,得出以下评测结果:

  1. GPT-4o文生图能力全维度排名第一,且综合得分显著高于第二名Dreamina2.1。
  2. 同属于原生多模态模型的Gemini-2.0-Flash表现相对,排名为第11名,与DALLE3,MJ等模型在同一水位。
  3. 原生多模态模型在结构化生成(图表、字符)和常识推理任务上有更好的表现,且GPT-4o在创意设计类任务(海报、插画)上明显强于业界其他模型。

参与对比模型基础信息

image.jpeg

image.jpeg

注释1:不均匀:简单、清晰的prompt生成速度10s内,含推理类prompt生成速度120s左右。

注释2:在实际生成时,仅有Gemini会根据任务的复杂性(是否涵盖分析推理为准)在生成速度上表现出明显的差异(来自人工爬取实际体验)。

注释3:因GPT-4o仅网页端暂不提供API,所以本次测评从文生图V6评测集中进行采样评测能力不同能力水位。待开放API后可补充自动评测结果,以及本次评测暂不包含多轮编辑图像能力,仅在单图维度对各类能力进行评测。

想获得最新模型评测报告,记得关注我们哦~

2.2 评测说明

此次评测的测试基准为人工评测,采用AGI-Eval社区的私有自建评测集,以快速反应模型能力水位为主,暂不具备对同梯队的模型进行精细区分。

  1. 评测数据集:采样全量人工评测集,考察生成能力项包括实体生成、人像、风格&主题等,共计42条评测数据。
  2. 评测方法:采用人工评测的方式,在给定prompt和对应的图片上结合打分标准,对图片在图文一致性、图像质量维度进行1分~5分打分,并再结合图片整体生成质量给出综合评分。最终结果取多标均值代表模型在主观体感上的综合表现。

此次数据集中包含9个标签分类(主体、事件、场景、风格、文化、主题等),其中占比较高的3个标签分别是:

主体占比最高达到48%主要包括人物建筑物,以及与人产生交互的其他日常物品,如餐厨用品、动物、日常用品、食物等;

其次为事件,包括日常人物行为如行走、吃东西、学习、情感表达,现实世常见现象如事件推测、物理模拟等以及其他事件;

场景包括现代城市以及其他自然场景。其中现代城市相对集中如街道、道路、城市,自然场景种类相对丰富如草地、沙漠、山野、海面、江河等多个类别。

注释1:图文一致性:评估图片是否全面包含文本提到的信息,能否精确地理解文本中的字面意义。需要准确理解用户prompt中的每一个要求和细节:包括对物体、人物、场景、风格等所有相关要素的描述。

注释2:图像质量:评估图像生成合理性、真实性水平,关注生成的图像在逻辑、结构、设计等方面是否符合常规的要求,例如:是否符合物理规律,是否存在形变、畸形、粘黏。生成的图像被识别为AI生成的难度,有无明显的拼接痕迹等。

2.3 文生图模型评测榜单

  1. GPT-4o模型的综合分数最高,且在图文一致性、图像质量维度上均领先于其他模型,整体性能最佳。其他模型的分数相对接近,竞争较为激烈;
  2. 图文一致性维度上除GPT-4o模型,wanx_2.1_plus排名第二,其次为wanx_2.1_turbo(阿里云接入)、Image-01(Minimax)、ideogram2;
  3. 图像质量维度上GPT-4o领先优势更明显,其次为Kolors1.5、Image-01(Minimax)、flux.1.dev;

整体表现相对均衡的模型是flux.1.dev、midjourney-v6.1,在维度上差异较大的模型是wanx_2.1_plus、dalle3

图片

图片

image.jpeg

image.jpeg

2.4 GPT4o具体表现分析

1. 优势维度:GPT-4o在创意设计、复杂实体生成、学科知识、字符图表中均有突出表现;

  • 在字符生成上,过往的生图模型会存在字母畸形、字符混乱的问题(包括Gemini-2.0-Flash),GPT-4o模型生图中没有这类问题且生成的字体也更加美观;
  • 在图表生成上,GPT-4o和Gemini-2.0-Flash均有更好的表现,表格结构清晰、美观,对比其他生图模型则是无法生成;
  • 在复杂人像生成上,GPT-4o的生图合理性上表现更好,没有出现大幅度的肢体畸形、五官扭曲现象,Gemini-2.0-Flash目前还做不到。

2. 劣势维度:GPT4o在多图生成上存在理解偏差 ,导致指令遵循能力下降,以及在部分图像中依然存在生图类模型均存在的真实性问题有轻微AI感;

03 GPT-4o VS 其他模型实测对比

下面也将从创意设计、插画、实体生成、多图生成等八大生成任务进行实际案例展示和对比分析。

以下实测排序从左到右依次为GPT-4o->Gemini-2.0-Flash->Dreamina2.1->Flux.1.1 pro

创意设计

prompt:Please create this image:A movie poster of mountain and sea(一张描绘山和海的电影海报)

一致性维度:GPT-4o与Gemini-2.0-Flash满足“海报”定义(即需要生成文字),其余模型不满足;

图像质量维度:GPT-4o生成的单词正确,整体合理性好;Gemini-2.0-Flash疑似试图生成中文,但字符乱码,Dreamina2.1与Flux.1.1 pro合理性维度均无明显问题,但Flux.1.1 pro的真实感较差

image.jpeg

image.jpeg

image.jpeg

image.jpeg

image.jpeg

image.jpeg

image.jpeg

image.jpeg

从上到下依次为GPT-4o->Gemini-2.0-Flash->Dreamina2.1->Flux.1.1 pro

插画

prompt:Please create this image:A painting depicting a crowd on a busy street, with the focus on a street performer, deliberately blurring the foreground and background crowds to create a sense of depth and spatial layering.(一幅插画,描绘一条繁忙街道上的人群,将焦点放在一个街头艺人身上,使前景和背景的人群适当模糊,产生深度感和空间层次)

一致性维度:GPT-4o准确表达“焦点”和“空间层次”,完全符合要求;Gemini-2.0-Flash未明确体现出“街头艺人”,也不符合插画风格,其余模型未体现出“前景和背景的人群适当模糊”;

图像质量维度:GPT-4o画风下可接受背景人物模糊,整体合理性较好;Gemini-2.0-Flash右侧人物与箱子交叠处、疑似遮阳伞重叠处不合理较明显,其余模型人物手部、远景较不合理。

image.jpeg

image.jpeg

image.jpeg

image.jpeg

从上到下依次为GPT-4o->Gemini-2.0-Flash->Dreamina2.1->Flux.1.1 pro

实体生成

prompt:Please create this image:A tea pot with the Yin Yang Bagua symbol imprinted on it, made of purple clay material. There is a tea cup next to it, and it is filled with tea.(一把印有阴阳八卦图的茶壶,茶壶是紫砂材质,旁边还有个茶杯,并且倒满茶了。)

一致性维度:GPT-4o完全符合prompt要求,是目前唯一将“阴阳八卦”生成正确的模型,其余模型则不完全符合

图像质量维度:GPT-4o的合理性、真实性均体现较好,实体的材质与光影真实;Gemini-2.0-Flash的真实性稍有欠缺,其余模型生成的壶身上的花纹不合理较明显。

image.jpeg

image.jpeg

image.jpeg

image.jpeg

image.jpeg

image.jpeg

image.jpeg

image.jpeg

从上到下依次为GPT-4o->Gemini-2.0-Flash->Dreamina2.1->Flux.1.1 pro

多图生成

prompt:Please create this image:Create a set of pictures depicting a person walking on the street when suddenly it starts raining. As they didn't carry an umbrella, they end up getting drenched like a wet chicken. Showcase a humorous and comical atmosphere in a stick figure style.(生成一组图片,展示一个人走在路上忽然开始下雨了,因为没带伞最终被淋成了落汤鸡,用简笔画风格体现出滑稽搞笑的氛围。)

一致性维度:GPT-4o能正确理解“getting drenched like a wet chicken”,风格与粗粒度情感都表现较好,完全符合要求;Gemini-2.0-Flash与Dreamina2.1未生成多图,且错误理解“a wet chicken”Flux.1.1 逻辑较为混乱,未能体现“没带伞”和“淋湿”之间的关系。

图像质量维度:GPT-4o画风合理性较好,Gemini-2.0-Flash与Dreamina2.1因误生成鸡导致画面整体合理性较差,Flux.1.1 pro人物与雨伞交互处合理性较差。

image.jpeg

image.jpeg

image.jpeg

image.jpeg

image.jpeg

image.jpeg

image.jpeg

image.jpeg

从上到下依次为GPT-4o->Gemini-2.0-Flash->Dreamina2.1->Flux.1.1 pro

学科知识

prompt:Please create this image:Can you generate an analysis chart of Earth's crust structure for Xiao Ming, who is starting to study geography but suddenly forgot the relevant knowledge while reviewing?(小明开始学习地理课程,但是复习时突然忘记地壳结构的相关知识,你可以给小明生成一张地壳结构分析图吗?)

一致性维度:地壳结构分析图存在2D与3D的形式,因此基本形态均能认可,但在专业知识上,GPT-4o能给出正确分层及标注,优于其他模型。

图像质量维度:GPT-4o生成的单词正确,地壳结构大体合理,其他模型的字符乱码及结构错乱较明显。

image.jpeg

image.jpeg

image.jpeg

image.jpeg

image.jpeg

image.jpeg

image.jpeg

image.jpeg

从上到下依次为GPT-4o->Gemini-2.0-Flash->Dreamina2.1->Flux.1.1 pro

常识推理

prompt:Please create this image:Two doctors riding the tallest animal in the world.(两个医生骑着现今世界上最高的动物。)

一致性维度:GPT-4o与Gemini-2.0-Flash推理正确,给出的是符合prompt要求的长颈鹿;Dreamina2.1推理出错,Flux.1.1 pro疑似自创生物,未进行推理

图像质量维度:GPT-4o出现听诊器、人物手指的细节问题,整体真实性较好;Gemini-2.0-Flash与Dreamina2.1的人物面部、肢体畸形较明显;Flux.1.1 pro人物无明显畸形,但因推理出的生物不符合现实世界,也视为合理性扣分。

image.jpeg

image.jpeg

image.jpeg

image.jpeg

image.jpeg

image.jpeg

image.jpeg

image.jpeg

从上到下依次为GPT-4o->Gemini-2.0-Flash->Dreamina2.1->Flux.1.1 pro

复杂人物生成

prompt:Please create this image:Real Photography: In a lively hotpot restaurant, five young people are gathered together, enjoying a hotpot meal. Various side dishes and condiments are spread out on the table, while their faces are filled with joy and smiles.(真实摄影,一家热闹的火锅店里,5个年轻人围在一起吃火锅,各种配菜和调味品铺在桌子上,脸上充满了喜悦和笑容。)

一致性维度:GPT-4o、Dreamina2.1、Flux.1.1 pro均符合prompt基本要求;在“热闹的火锅店”氛围体现中,GPT-4o和Flux.1.1 pro较好;Gemini-2.0-Flash生成人数出错。

图像质量维度:GPT-4o仅筷子及菜品细节存在不合理,其他模型均存在不同程度的人物手部扭曲畸形,不合理程度相对较严重;同时GPT-4o的光影效果、人物皮肤质感等真实性较好,其他模型则在质感上稍有欠缺。

image.jpeg

image.jpeg

image.jpeg

image.jpeg

image.jpeg

image.jpeg

image.jpeg

image.jpeg

从上到下依次为GPT-4o->Gemini-2.0-Flash->Dreamina2.1->Flux.1.1 pro
文字图表

prompt:Please create this image:Design a grid chart to record students' final grades, with each column clearly differentiated by colors. The first column is "Name," the second column is "Mathematics," and the third column is "Science."(设计一个方格图表,记录学生的期末成绩,要求每一列使用明显的颜色区分,第一列是“姓名”,第二列是“数学”,第三列是“科学”。)

一致性维度:GPT-4o与Gemini-2.0-Flash完全符合prompt要求,Dreamina2.1和Flux.1.1 pro则仅能体现“方格图表”的大致模式,无法将字符与表格内正确位置对应

图像质量维度:GPT-4o与Gemini-2.0-Flash单词生成正确,表格清晰,Dreamina2.1和Flux.1.1 pro单词乱码错误明显,对图表整体表现较差。

image.jpeg

image.jpeg

image.jpeg

image.jpeg

从上到下依次为GPT-4o->Gemini-2.0-Flash->Dreamina2.1->Flux.1.1 pro

之后我们会持续跟进最新的模型更新,持续输出最快、最新、最权威的评测报告,让大家掌握一手的模型能力信息。别忘了关注我们哦!

下一期评测报告预告抢先告诉大家,Gemini-2.5-Pro!!想看的朋友别忘了关注我们哦!期待下期和大家的分享。

往期回顾

1.【AGI-Eval行业动态 NO.6】Manus爆火48小时:一场关于AI未来的“乐观”与“警惕”

2.【AGI-Eval行业动态 NO.5】今年太卷了,30+的模型已发布,还有10款模型即将发布!

3.【AGI-Eval行业动态 NO.4】Claude 3.7 Sonnet将模型行业卷向了新高度,但背后仍然还有新的问题

我们也在探索Agent能力评测的新方式,同时文末也期待大家参与我们社群,一起探寻 AGI 的更多可能性,发现更多不一样的视角,提出问题才有机会解决问题。

image.jpeg

图片

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值