【原创】Chat GPT-4o新版画图能力深度最全测评!

GPT-4o在2025年3月26日更新了图像能力,并且奥特曼表示很强。所以赶紧试一试,看如何不用SD和MJ这种传统需要发送“魔法咒语”形式画图的方式有什么变化,是否真得能够简单的通过自然语言进行工作(LUI交互)。

测试场景一:画图以及进行风格替换

帮我画一张图,图中一个40岁亚洲男性,站在上海外滩,背后是东方明珠塔。他穿着黑色T恤,T恤上面印㡳“Black”字母,他面色冷峻,头发较长,戴着黑框眼镜。

评价:真人图非常真,卡通图与要求的卡通图风格稍微有点区别,并且脸变的胖胖的。

测试场景二:现有图片的处理

原始图:

去掉人物效果:

请把这张照片里所有的人都去掉,只保留自然景色

添加其他东西到新图片:

在处理后的图片上面放上一匹马,这匹马是白色的,然后与周围环境自然融合。

图片里再添加其他东西:

在上面这张图片上面再进行处理,这匹白马上面骑了一个穿白色汉服纱裙的古代长发女子,她白纱半蒙着面,摇杆挺直,英姿飒爽,手里拉着马的缰绳,另外一只手拿着宝剑,昂首目视前方。

更换图片的观察视角:

画一张新图,上面这张图更换视角,从空中俯视整个场景,需要清晰逼真,不要减少上图的任何元素

图片变幻为卡通风格:

图中人物和背景做成吉卜力风格头像

点评:老实说,这个确实真的强,虽然与原始的照片稍微有一些差异,比如说这个鞋子两张图中颜色不一样这些细微差别,但是总体整个图的构造过程,还有还原度非常强,确实非常厉害。

测试场景三:商品内容翻译

画一张图,完成这张图片内文字翻译工作,图片中的中文全部变成英文,并且不改变现有图的颜色布局和物品的现有样子。

评价:目前摄像头有点跟原图不太像(优点弯曲),但是其他地方还原度已经很厉害了。

测试场景四:海报设计

小红书封面设计:

Prompt:

生成一张科技感十足的DeepSeek原理介绍封面图,严格遵循小红书3:4比例。  
视觉要求:  
1. 背景:深空蓝渐变(#0A1F33 → #1A3A6B),叠加发光神经元节点  
2. 主标题:'DeepSeek核心原理解析'(80px,荧光绿#00FF9D,描边2px白边)  
3. 副标题:'MoE架构 × 128K上下文窗口'(40px,浅灰#CCD6F6)  
4. 技术符号:右侧悬浮透明芯片图标,内含公式 $\\text{FFN}_i(x) = \\sigma(xW_i + b_i)$  
5. 动态提示:标注'需HTML5实现粒子光效悬停'  

避坑提示:  
- 避免文字超过30字(防信息过载)  
- 确保主标题在手机缩略图中清晰可见

GPT-4o效果:

Image

Claude效果:

Image

评价:这两非常一致,对比来说,GPT-4o明显更好看,除了个别中文显示会有点不太对劲。

测试场景五:招聘广告设计

Prompt:

生成一张招聘运营创意大牛的海报,海报必须有感染力,主要用于朋友圈、小红书的发布。

GPT-4o设计:

Claude 效果:

Image

点评:明显GPT-4o好看,但是中文处理上面还是存在问题,“聘”字错了还这么大。

测试场景六:工业产品设计

想要进行工业类设计,比如汽车设计的场景:

画一张汽车设计图,是基于现有的中国理想Mega汽车为原型,然后针对这款车进行改造升级后的汽车外观设计图,汽车是灰黑色的外观,有光泽,更符合中国人的喜好特点,图片要仿真,需要看着有高级感。

GPT-4o:

Claude-3.7-Sonnet:

点评:GPT-4o这个还是很惊艳的,确实很棒!Claude就非常拉胯了,确实在svg的场景,这种图设计起来有心无力,有点为难Claude了。

测试场景七:UI设计

想要生成一个电商网站的UI设计,看看效果如何。

Prompt 1: 生成PC网站

生成一个可直接用于前端开发的京东购物风格电商网站UI设计图,需满足以下要求:  

1. 基础规范  
   - 布局:采用京东典型三栏式结构(左导航+中内容+右推荐)
   - 尺寸:1920px宽度(有效内容区1200px居中),RGB模式,分辨率72ppi  
   - 字体:中文优先使用阿里巴巴普惠体Bold(标题)/OPPO Sans(正文),英文使用Arial  
   - 色彩:主色京东红(#E1251B)+ 辅助灰(#F5F5F5),参考F型阅读模式布局  

2. 必备功能模块  
   - 顶部导航栏:Logo(左侧)、搜索框(居中,占宽度30%)、登录/购物车入口(右侧)  
   - 主视觉区:轮播Banner(5组,含'新品首发''限时秒杀'等营销标签)  
   - 商品分类:左侧垂直导航(家电/数码/生鲜等12类,参考京东二级页面)  
   - 商品展示:瀑布流布局,每项包含:  
     - 高清产品图(带悬停放大功能标注)  
     - 价格(红标突出)+ 销量标签  
     - '加入购物车'按钮(固定在右下角,拇指热区设计)  
   - 购物车图标右上角显示实时数量  

Prompt 2:生成APP

把上面的电商购物网站UI设计,再生成一个APP版本,底部固定导航栏(首页/分类/购物车/我的) ,然后整个设计图显示在一个仿真iPhone样机的里面展示。

GPT-4o 效果:

Image

Claude-3.7-Sonnet 效果:

Image

点评:我觉得两者不相伯仲,GPT-4o还是一日既往在处理中文的时候容易比较奇怪。但是两者可能重点训练过,基本页面还原度非常高。(UI设计师危!)

测试场景八:图书封面设计

想要测试一下图书封面设计效果如何,设计如下Prompt:

设计一个图书封面,必须附着在一个仿真书上面,书籍是一本互联网技术类书籍,书籍标题是《DeepSeek大模型原理揭秘》,作者是黑夜路人,这个图书封面的其他内容和设计元素你来确定,尽量要像仿真书。

GPT-4o效果:

Image

Claude-3.7-sonnet 效果:

点评:仿真度还是GPT-4o更强,然后内容丰富度是Claude更好,GPT-4o一如既往处理中文上面有问题。

测试场景九:动漫效果和手机封面设计

Prompt:

画一张图,把初中数学“一元二次方程”知识的介绍讲解变成多格漫画呈现,然后输出漫画图片。

GPT-4o:

Image

Claude-3.7-Sonnet:

Image

点评:从图片来说是GPT-4o好看,内容来说Claude更丰富严谨。

针对上面图片更进一步的操作

画一张图,把这个一元二次方程动漫图放在一个iPhone样机里面展示

GPT-4o:

Claude-3.7-Sonnet:

Image

点评:确实GPT-4o和Claude各有千秋,当然肯定GPT-4o仿真能力更强。

测试场景十:语文板书场景

画一张图,请把下面文本内容以黑板粉笔板书形式呈现,所有内容在一个黑板上面,还需要呈现手写风格,另外在诗歌中的“黄鹤楼”三个字画上红色粉笔圈起来,表示重点关注内容,需要板书的内容如下: 《黄鹤楼送孟浩然之广陵》 作者:李白 故人西辞黄鹤楼,烟花三月下扬州。 孤帆远影碧空尽,唯见长江天际流。

评价:红色粉笔画的位置不是我们要求的位置,字体内容太像楷书了,提醒后依然无法准确。

测试场景十一:数学公式板书场景

生成板书公式Prompt:

生成一张图片,背景是一个黑板,请把以下的Letax数学公式画成粉笔板书,方便学习,然后把其中公式难点通过黄色粉笔画圈,然后公式需要像手写体:

\documentclass{article}
\usepackage{amsmath}
\begin{document}

\section*{椭圆的标准方程及其参数关系}

\begin{align}
\frac{x^2}{a^2} + \frac{y^2}{b^2} &= 1 \quad (a > b > 0)\\
\end{align}

\text{其中,焦距} \ c = \sqrt{a^2 - b^2}, \text{离心率} \ e = \frac{c}{a} = \sqrt{1 - \frac{b^2}{a^2}}

\text{椭圆的焦点坐标为} \ F_1(-c, 0) \ \text{和} \ F_2(c, 0), \text{准线方程为} \ x = \pm\frac{a^2}{c}

\end{document}

评价:通过Letax生成手写公式效果,还是存在错误或者是遗漏的情况,红色改写的内容是错误的公式描述,提醒后错误更多。

测试场景十二:物理化学实验场景

Prompt:

请生成一张中国高中物理实验示意图,主题为‘验证动量守恒定律(气垫导轨+光电门),要求包含以下细节:  
1. 实验器材:  
   - 水平气垫导轨(标注导轨长度和调节螺丝)  
   - 两个滑块(分别标注质量 \(m_1\) 和 \(m_2\),滑块上安装挡光片)  
   - 光电门(两个,分别位于导轨两侧,标注连接数字计时器)  
   - 弹性碰撞环(或磁性碰撞装置,安装在滑块一端)  

2. 实验场景:  
   - 滑块 \(m_1\) 从左侧以初速度 \(v_1\) 向右运动,与静止的滑块 \(m_2\) 发生碰撞(弹性碰撞场景)。  
   - 碰撞前后,光电门分别测量两滑块通过时的挡光时间 \(\Delta t_1\) 和 \(\Delta t_2\)(用箭头标注速度方向)。  

3. 标注与公式:  
   - 在图中空白处添加动量守恒公式:(以下Letax转成方便阅读的普通公式)
     \[
     m_1 v_1 + m_2 v_2 = m_1 v_1' + m_2 v_2'
     \]  
   - 标注挡光片宽度 \(d\)(用于计算速度 \(v = \frac{d}{\Delta t}\))。  

4. 风格要求:  
   - 手绘风格或仿真实验设备风格,线条清晰,器材比例协调。  
   - 重要部件用红色或蓝色高亮(如光电门、挡光片)。

GPT-4o输出风格:

同样Prompt情况下,对比Claude-3.7-Sonnet的svg图风格:

评价:画面风格GPT-4o更好,内容也更清晰,但是公式显示层面,GPT-4o丢失了 ', Claude是正常的。

测试场景十三:化学场景设计

化学实验Prompt:

生成一张中国高中化学实验示意图,主题为'氧气制取实验对比',要求同时展示以下两种方法:  
1. 加热氯酸钾(KClO₃)与二氧化锰(MnO₂)  (图片左侧)
2. 过氧化氢(H₂O₂)催化分解(使用MnO₂)  (图片右侧)

具体要求:  
1. 实验装置细节:  
   - 方法一(加热法):  
     - 铁架台固定大试管,试管口略向下倾斜(标注'防止冷凝水回流')  
     - 试管内装KClO₃和MnO₂混合物(MnO₂用黑色颗粒表示)  
     - 酒精灯加热(火焰位置标注'集中加热药品底部')  
     - 导管连接集气瓶,展示排水法收集氧气(瓶内水位下降,气泡清晰可见)  
   - 方法二(催化法):  
     - 锥形瓶内盛放H₂O₂溶液(浅绿色液体,标注'浓度6%-10%')  
     - 分液漏斗缓慢滴加H₂O₂(标注'控制反应速率')  
     - 瓶底有黑色MnO₂粉末(标注'催化剂')  
     - 导管通入集气瓶,显示连续气泡  

2. 关键标注:  
   - 在图中空白处添加化学方程式:  
     - 2KClO₃ \(\xrightarrow[\text{加热}]{MnO₂}\) 2KCl + 3O₂↑  
     - 2H₂O₂ \(\xrightarrow{MnO₂}\) 2H₂O + O₂↑  
   - 安全提示:  
     - '加热前预热试管'(方法一)  
     - 'H₂O₂浓度不超过10%'(方法二)  

3. 风格与视觉效果:  
   - 手绘风格或半写实风格,仪器比例标准(试管细长,集气瓶透明)  
   - 颜色标注:  
     - 氧气气泡用淡蓝色  
     - MnO₂用黑色颗粒状  
     - H₂O₂溶液为浅绿色  
   - 添加操作步骤标签:  
     - '①检查装置气密性'  
     - '②开始收集气体'  
     - '③验满(带火星木条复燃)'  

4. 扩展要求:  
   - 在图中添加误差分析说明(如'加热温度不足会导致反应不完全')  
   - 为酒精灯添加安全警示图标(🔥+'远离易燃物')"  
   - 图中应包含:两套完整装置、动态气泡、方程式标注、安全提示等元素

GPT-4o输出图:

同样Prompt下Claude-3.7-Sonnet生成图:

评价:GPT-4o的公式和中文稳定性会有一些问题,然后不能生成比较仿真的图。

总结

通过对GPT-4o最新版多模态画图能力的全面测试,我们可以对其性能和应用场景得出以下结论:

主要优势:

1.逼真度与细节处理:在仿真设计、产品渲染和场景处理方面表现出色,特别是汽车设计和iPhone样机展示等场景,生成的图像质感和细节都非常出色。

2.场景转换与编辑能力:能够高效地从现有图像中移除人物、添加新元素,并能根据指令改变视角或风格,这在图片编辑场景中非常有用。

3.UI设计表现:在PC网站和移动端APP界面设计上表现专业,布局合理,UI设计师职业可能面临挑战。

4.设计美感:在招聘海报、小红书封面等设计中展现出很强的艺术性和现代感,视觉吸引力强。

主要局限:

1.中文处理问题:在处理中文文字时容易出现错误,如错别字或排版异常,这在"聘"字等示例中尤为明显。

.2公式与专业符号准确性:在展示数学公式和化学方程式时存在准确度问题,尤其是复杂LaTeX公式转换为板书形式时。

3.指令精确遵循:某些细节指令未能准确执行,如红色粉笔标注位置与要求不符,公式描述中存在遗漏或错误。

与Claude的小对比(虽然不是一个档次,GPT-4o厉害太多了)

1.GPT-4o在仿真度和视觉效果方面普遍优于Claude,图像更加自然逼真。

2.Claude在内容完整性和专业性上有时表现不错,比如数学内容和公式展示(实现原理不同)

GPT-4o的多模态画图能力确实令人印象深刻,特别是在处理复杂场景和进行连续编辑方面。虽然在中文处理和某些专业内容展示上仍有改进空间,但其综合表现已经能够满足大多数普通用户和部分专业用户的需求,代表了AI图像生成技术的重要进步。

GPT-4o的画图能力开创了一种新的交互范式,用户可以通过自然语言而非复杂的"魔法咒语"进行创作,大大降低了使用门槛。这种LUI(语言用户界面)交互模式使图像生成更加直观易用,对设计、教育、内容创作等领域有巨大潜力。


【大模型介绍电子书】

快速揭秘DeepSeek背后的AI工作原理

要获取本书全文PDF内容,请在【黑夜路人技术】VX后台留言:“AI大模型基础” 或者 “大模型基础” 就会获得电子书的PDF。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值