Z-Image开源后,简单测试下turbo模型的实际效果。
模型使用以下版本:

图像生成质量测试提示词集
说明:以下测试均为上方是Z-image,下方为豆包 seedream4.0.
维度一:主体与细节还原度
这个维度测试模型对具体物体形态、细节和质感的理解与生成能力。
-
基础物体(测试基本造型和质感):
提示词: 一个放在木质桌面上的红苹果,表面有水滴,旁边有一把不锈钢餐刀,背景虚化。摄影级画质。
考察点: 基础形状、颜色、不同材质(木纹、果皮、金属)的区分、细节(水滴)。

-
复杂物体(测试结构理解):
提示词: 一台精密的机械腕表内部机芯,齿轮交错,蓝钢螺丝,珍珠陀,特写镜头,充满细节,电影光效。
考察点: 对复杂机械结构的理解、微小零件的生成、特定术语(“珍珠陀”、“蓝钢螺丝”)的响应。

-
生物特征(测试对生命体细节的把握):
提示词: 一只西伯利亚虎的正面肖像,目光炯炯有神,湿漉漉的鼻头,胡须根根分明,毛发纹理清晰,背景是虚化的雪松林。
考察点: 动物解剖结构的准确性、毛发质感、眼神光等生命体征的呈现。

维度二:构图与空间关系
这个维度测试模型对画面布局、物体相对位置和透视关系的把握。
-
基础空间关系(测试前后、远近):
提示词: 一条蜿蜒的乡村小路穿过金黄的麦田,通向远处的一棵孤树,天空中有几朵白云。广角镜头。
考察点: 基本的透视(近大远小)、路径引导、前景/中景/远景的层次感。

-
复杂遮挡关系(测试逻辑理解):
提示词: 一只猫正从一個半开的纸箱里探出头来,好奇地张望。纸箱的 flaps 部分遮挡了猫的脸部和前爪。
考察点: 物体间交互和遮挡的逻辑是否正确,猫的身体结构在遮挡下是否合理。

-
特殊构图法(测试艺术性构图知识):
提示词: 一个行人打着一把红伞,走在雨中的青石板街上,采用三分法构图,人物位于左侧交叉点。电影感,色调偏冷。
考察点: 模型是否理解“三分法”等专业构图术语,并能正确执行。

维度三:风格与艺术表现
这个维度测试模型模仿不同艺术流派、风格和渲染效果的能力。
-
明确艺术流派(测试风格化能力):
提示词: 一座星空下的咖啡馆,采用文森特·梵高的风格,充满旋涡状的笔触和鲜艳的色彩。
考察点: 对特定艺术家风格的捕捉和再现能力。

-
混合风格与媒介(测试创造性融合):
提示词: 一条东方巨龙盘旋在现代化的都市上空,赛博朋克风格,霓虹灯光,细节丰富的插画风格。
考察点: 能否将两种看似不相关的风格(东方神话与赛博朋克)和谐地融合。

-
特定渲染技术(测试技术实现):
提示词: 一个水晶球,里面有一座微缩城堡,柔和的全局光照,渲染引擎 Cycles,照片级真实感。
考察点: 对CGI专业术语(如“Cycles渲染引擎”、“全局光照”)的理解,以及实现照片级真实感的能力。

维度四:光照与材质
这个维度测试模型对物理世界的光影和物体表面属性的模拟能力。
-
基础光影(测试光源方向与质感):
提示词: 清晨的阳光从窗户斜射进房间,在铺有白色桌布的餐桌上形成一道光斑,空气中能看到尘埃。逆光摄影。
考察点: 逆光效果、光斑的形成、丁达尔效应(空气中尘埃的光路)。

-
复杂材质互动(测试物理属性):
提示词: 一个装着半杯水的玻璃杯,杯壁上有冷凝水珠,放在一个磨砂金属托盘上,背景有焦外光斑。
考察点: 透明材质(玻璃)、液体(水)、凝结(水珠)、漫反射材质(磨砂金属)的区分和相互作用。

-
戏剧性光影(测试氛围营造):
提示词: 一个侦探在昏暗的办公室里,只有台灯照亮他半边脸和桌上的档案,强烈的 chiaroscuro(明暗对比)效果,黑色电影风格。
考察点: 对高级光影术语(Chiaroscuro)的理解,以及用光影讲述故事、营造氛围的能力。

维度五:场景与氛围叙事
这个维度测试模型构建复杂场景、传达情绪和故事感的能力。
-
具体场景氛围(测试情绪渲染):
提示词: 一座被遗弃的游乐园,旋转木马锈迹斑斑,长满了藤蔓,黄昏时分,氛围宁静而忧伤。
考察点: 通过景物、色彩和时间(黄昏)共同营造出一种统一的、具体的氛围。

-
动态场景(测试瞬间捕捉):
提示词: 一位芭蕾舞者在空旷的剧院中央跳跃,动作舒展,聚光灯打在她身上, Motion blur(运动模糊)捕捉裙摆的舞动。
考察点: 对动态瞬间的刻画、运动模糊的合理应用、动态中的形体准确。

-
超现实想象(测试逻辑违背与创造性):
提示词: 一头巨大的布质长颈鹿玩偶,在图书馆的书架之间漫步,概念艺术,柔和的顶光。
考察点: 将不相关的元素以合理的方式组合在一起,创造出超现实但视觉上协调的画面。

维度六:文本渲染与精确遵循
这个维度专门测试模型理解和生成文字,以及遵循非常具体指令的能力。
-
简单文字生成(测试基础文字渲染):
提示词: 一个干净的咖啡杯,杯身上写着白色的“Hello World”字样。
考察点: 最基本的文字生成能力,字母是否正确、清晰。

-
特定排版与风格(测试设计与排版):
提示词: 一张复古风格的海报,标题是“GRAND OPENING”,采用装饰艺术字体,下方有较小的副标题“Since 2024”。
考察点: 对字体风格(装饰艺术)的理解,以及处理主副标题大小排版关系的能力。

-
复杂指令遵循(测试逻辑与细节):
提示词: 生成一个图标,图案是一个简笔画的猫头,猫的左耳是蓝色的,右耳是绿色的,背景是黄色圆形。扁平化设计。
考察点: 模型是否能精确区分“左”和“右”的指令,并完美执行所有细节要求(颜色、形状、风格)。

emm,这个Z-image还是相当能打,质量方面其实跟豆包的比,更偏写实和日常一点,当然豆包的美学效果方面还是更讨喜一点。
速度上看,在4070这块只有12G显存的显卡上跑,只需要20秒左右一张图。

那我们再测试一些特殊情况
提示词: 在OpenAI内部的一次会议场景,奥特曼正在和黄仁勋讨论问题,黑板上写着“火星上安装英伟达显卡计划2040,星际之门盛大开启。”,写实照片,iphone拍照风格,
Z-Image:

豆包:

总得来说,这个模型相当不错,真的没有想到一个6B模型可以有这么强的细节绘画能力,本地部署还是有很多优势的,期待Edit的发布~阿里加油呀~
1803

被折叠的 条评论
为什么被折叠?



