Flux.1测评VOL.2 Flux与Midjourney、豆包、可图的生图对比

本文链接：https://blog.csdn.net/m0_59236602/article/details/145135241

本期分享Flux.1的深度测评，通过使用Flux主流版本Flux- Dev和市场上其他大模型生图工具的对比测试，探寻flux模型在人像写真上的真实能力。

本期测评从三个方面来进行出图，首先是内容、然后是生产以及规格。因为Flux是一个自然语言的模型，从整体不同的质感和风格上面，选择用目前市面上主流的几个自然语言模型——Midjourney、豆包和可图来进行对比。我们进行了同样的关键词输入并获得输出图片。

人像写真

Test-1

这份完整版的AI绘画（SD、comfyui、AI视频）整合包已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

在这里插入图片描述
可以看出Flux的写真更接近于相机拍摄出来的写真风格，豆包会更加符合中国人审美自带小红书网感，可图的稳定性较弱在人像美的呈现上也并不突出，Midjourney有自成一派的特殊滤镜和艺术风格。

手部生成

Test-2

第二组测试进行了肢体和手部动作的关键词输出，在简单的“手比耶”的输出中，除了Flux可以保持正常的手指结构之外，其他模型在手部生成上都会有多多少少的问题。而在对“千手观音”进行输出的时候，Flux在肢体完整度和比例上大体是OK的，其他模型均有不同程度的问题。通过对敦煌壁画的还原，可以看出豆包对于中国文化的理解能力是非常好的，Flux对敦煌的理解更加偏向于西方，但是人物手和脚的生成都没有太大问题。

背景生成

Test-3

第三组是根据背景物品，按照背景的逻辑性写了两组关键词，一组是比较日常的室内带有一些角度的屋内场景，另外一组是透视比较大的室外场景。通过对比可以看出来，Flux对于室内物体的理解是非常好的，它能够理解物理世界中的各个角度，包括墙体、折角以及透视关系，这些物品的摆放位置都是非常准确的。

Midjourney、豆包和可图在背景结构的精细度上略显不足，比如墙体的折角、桌角的透视都有问题。对于大构图，Fulx整体出图类似杂志写真对称感极强，背景中建筑有细节问题但画面冲击感和人物质感都表现得很好。Midjourney的图片有自带的艺术感和梦幻感，豆包和可图在真实感和艺术性上都较弱。

文字输出

Test-4

第一部分是生日写真可以看出Flux对于生日“happy birthday”这个组词理解的非常好，呈现出了完全正确的拼写，而且画面符合生日氛围。然后其他三个模型在各个地方都会有对文字理解不到位的情况，手的问题也会再次出现。

第二部分选择了带有“优酷”图样的PPT演讲场景，PPT背后是SD3的内容，可以看出来Flux生成的图片衣服上“优酷”字样呈现非常完美，而且能识别出衣服上的文字根据身体的变形，符合物理学。包括背后的PPT，虽然看不清内容但是排版非常规整，可以以假乱真。Midjourney对于文字的理解能力也是比较强的，但手部生成完成较弱。就形式上来说豆包和可图文字理解能力会弱很多，基本识别不出文字，后面SD3的文字也无法呈现，整体都会非常凌乱。

生产方向测试

Test-5