Z-Image测试效果记录（对比豆包的图像生成）

最新推荐文章于 2025-12-04 22:08:32 发布

原创最新推荐文章于 2025-12-04 22:08:32 发布 · 1.4k 阅读

CC 4.0 BY-SA版权

文章标签：

部署运行你感兴趣的模型镜像

Z-Image开源后，简单测试下turbo模型的实际效果。

模型使用以下版本：

说明：以下测试均为上方是Z-image,下方为豆包 seedream4.0.

这个维度测试模型对具体物体形态、细节和质感的理解与生成能力。

基础物体（测试基本造型和质感）：

提示词： 一个放在木质桌面上的红苹果，表面有水滴，旁边有一把不锈钢餐刀，背景虚化。摄影级画质。
考察点： 基础形状、颜色、不同材质（木纹、果皮、金属）的区分、细节（水滴）。
复杂物体（测试结构理解）：

提示词： 一台精密的机械腕表内部机芯，齿轮交错，蓝钢螺丝，珍珠陀，特写镜头，充满细节，电影光效。
考察点： 对复杂机械结构的理解、微小零件的生成、特定术语（“珍珠陀”、“蓝钢螺丝”）的响应。
生物特征（测试对生命体细节的把握）：

提示词： 一只西伯利亚虎的正面肖像，目光炯炯有神，湿漉漉的鼻头，胡须根根分明，毛发纹理清晰，背景是虚化的雪松林。
考察点： 动物解剖结构的准确性、毛发质感、眼神光等生命体征的呈现。

这个维度测试模型对画面布局、物体相对位置和透视关系的把握。

基础空间关系（测试前后、远近）：

提示词： 一条蜿蜒的乡村小路穿过金黄的麦田，通向远处的一棵孤树，天空中有几朵白云。广角镜头。
考察点： 基本的透视（近大远小）、路径引导、前景/中景/远景的层次感。
复杂遮挡关系（测试逻辑理解）：

提示词： 一只猫正从一個半开的纸箱里探出头来，好奇地张望。纸箱的 flaps 部分遮挡了猫的脸部和前爪。
考察点： 物体间交互和遮挡的逻辑是否正确，猫的身体结构在遮挡下是否合理。
特殊构图法（测试艺术性构图知识）：

提示词： 一个行人打着一把红伞，走在雨中的青石板街上，采用三分法构图，人物位于左侧交叉点。电影感，色调偏冷。
考察点： 模型是否理解“三分法”等专业构图术语，并能正确执行。

这个维度测试模型模仿不同艺术流派、风格和渲染效果的能力。

明确艺术流派（测试风格化能力）：

提示词： 一座星空下的咖啡馆，采用文森特·梵高的风格，充满旋涡状的笔触和鲜艳的色彩。
考察点： 对特定艺术家风格的捕捉和再现能力。
混合风格与媒介（测试创造性融合）：

提示词： 一条东方巨龙盘旋在现代化的都市上空，赛博朋克风格，霓虹灯光，细节丰富的插画风格。
考察点： 能否将两种看似不相关的风格（东方神话与赛博朋克）和谐地融合。
特定渲染技术（测试技术实现）：

提示词： 一个水晶球，里面有一座微缩城堡，柔和的全局光照，渲染引擎 Cycles，照片级真实感。
考察点： 对CGI专业术语（如“Cycles渲染引擎”、“全局光照”）的理解，以及实现照片级真实感的能力。

这个维度测试模型对物理世界的光影和物体表面属性的模拟能力。

基础光影（测试光源方向与质感）：

提示词： 清晨的阳光从窗户斜射进房间，在铺有白色桌布的餐桌上形成一道光斑，空气中能看到尘埃。逆光摄影。
考察点： 逆光效果、光斑的形成、丁达尔效应（空气中尘埃的光路）。
复杂材质互动（测试物理属性）：

提示词： 一个装着半杯水的玻璃杯，杯壁上有冷凝水珠，放在一个磨砂金属托盘上，背景有焦外光斑。
考察点： 透明材质（玻璃）、液体（水）、凝结（水珠）、漫反射材质（磨砂金属）的区分和相互作用。
戏剧性光影（测试氛围营造）：

提示词： 一个侦探在昏暗的办公室里，只有台灯照亮他半边脸和桌上的档案，强烈的 chiaroscuro（明暗对比）效果，黑色电影风格。
考察点： 对高级光影术语（Chiaroscuro）的理解，以及用光影讲述故事、营造氛围的能力。

这个维度测试模型构建复杂场景、传达情绪和故事感的能力。

具体场景氛围（测试情绪渲染）：

提示词： 一座被遗弃的游乐园，旋转木马锈迹斑斑，长满了藤蔓，黄昏时分，氛围宁静而忧伤。
考察点： 通过景物、色彩和时间（黄昏）共同营造出一种统一的、具体的氛围。
动态场景（测试瞬间捕捉）：

提示词： 一位芭蕾舞者在空旷的剧院中央跳跃，动作舒展，聚光灯打在她身上， Motion blur（运动模糊）捕捉裙摆的舞动。
考察点： 对动态瞬间的刻画、运动模糊的合理应用、动态中的形体准确。
超现实想象（测试逻辑违背与创造性）：

提示词： 一头巨大的布质长颈鹿玩偶，在图书馆的书架之间漫步，概念艺术，柔和的顶光。
考察点： 将不相关的元素以合理的方式组合在一起，创造出超现实但视觉上协调的画面。

这个维度专门测试模型理解和生成文字，以及遵循非常具体指令的能力。

简单文字生成（测试基础文字渲染）：

提示词： 一个干净的咖啡杯，杯身上写着白色的“Hello World”字样。
考察点： 最基本的文字生成能力，字母是否正确、清晰。
特定排版与风格（测试设计与排版）：

提示词： 一张复古风格的海报，标题是“GRAND OPENING”，采用装饰艺术字体，下方有较小的副标题“Since 2024”。
考察点： 对字体风格（装饰艺术）的理解，以及处理主副标题大小排版关系的能力。
复杂指令遵循（测试逻辑与细节）：

提示词： 生成一个图标，图案是一个简笔画的猫头，猫的左耳是蓝色的，右耳是绿色的，背景是黄色圆形。扁平化设计。
考察点： 模型是否能精确区分“左”和“右”的指令，并完美执行所有细节要求（颜色、形状、风格）。