本期分享Flux.1的深度测评,通过使用Flux主流版本Flux- Dev和市场上其他大模型生图工具的对比测试,探寻flux模型在人像写真上的真实能力。
本期测评从三个方面来进行出图,首先是内容、然后是生产以及规格。因为Flux是一个自然语言的模型,从整体不同的质感和风格上面,选择用目前市面上主流的几个自然语言模型——Midjourney、豆包和可图来进行对比。我们进行了同样的关键词输入并获得输出图片。
人像写真
Test-1
这份完整版的AI绘画(SD、comfyui、AI视频)整合包已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
可以看出Flux的写真更接近于相机拍摄出来的写真风格,豆包会更加符合中国人审美自带小红书网感,可图的稳定性较弱在人像美的呈现上也并不突出,Midjourney有自成一派的特殊滤镜和艺术风格。
手部生成
Test-2
第二组测试进行了肢体和手部动作的关键词输出,在简单的“手比耶”的输出中,除了Flux可以保持正常的手指结构之外,其他模型在手部生成上都会有多多少少的问题。而在对“千手观音”进行输出的时候,Flux在肢体完整度和比例上大体是OK的,其他模型均有不同程度的问题。通过对敦煌壁画的还原,可以看出豆包对于中国文化的理解能力是非常好的,Flux对敦煌的理解更加偏向于西方,但是人物手和脚的生成都没有太大问题。
背景生成
Test-3
第三组是根据背景物品,按照背景的逻辑性写了两组关键词,一组是比较日常的室内带有一些角度的屋内场景,另外一组是透视比较大的室外场景。通过对比可以看出来,Flux对于室内物体的理解是非常好的,它能够理解物理世界中的各个角度,包括墙体、折角以及透视关系,这些物品的摆放位置都是非常准确的。
Midjourney、豆包和可图在背景结构的精细度上略显不足,比如墙体的折角、桌角的透视都有问题。对于大构图,Fulx整体出图类似杂志写真对称感极强,背景中建筑有细节问题但画面冲击感和人物质感都表现得很好。Midjourney的图片有自带的艺术感和梦幻感,豆包和可图在真实感和艺术性上都较弱。
文字输出
Test-4
第一部分是生日写真可以看出Flux对于生日“happy birthday”这个组词理解的非常好,呈现出了完全正确的拼写,而且画面符合生日氛围。然后其他三个模型在各个地方都会有对文字理解不到位的情况,手的问题也会再次出现。
第二部分选择了带有“优酷”图样的PPT演讲场景,PPT背后是SD3的内容,可以看出来Flux生成的图片衣服上“优酷”字样呈现非常完美,而且能识别出衣服上的文字根据身体的变形,符合物理学。包括背后的PPT,虽然看不清内容但是排版非常规整,可以以假乱真。Midjourney对于文字的理解能力也是比较强的,但手部生成完成较弱。就形式上来说豆包和可图文字理解能力会弱很多,基本识别不出文字,后面SD3的文字也无法呈现,整体都会非常凌乱。
生产方向测试
Test-5
在对长文本的理解能力上,可以看出Flux不会有特别离谱的出错,能够达到你这个语义70%。Midjourney、豆包只能达到40%、50%这个样子,各方面都会有折损。
规格方向测试
Test-6
对于同一组关键词进行了分辨率500*1000以及1500*3000的输出。出图可以看出来,不管是小图片还是大图片,都能把人物整体结构很好地完成,手和肢体也不会有太大的错误,但是放到3000特别大的时候,整个画面会和理想画面有一些出入,整体来看Flux支持小图片也支持大图片的输出。
Test-7
继续拿关键词进行比例方面的测试,把比例调成非常极端的长构图。可以看出把它压到200*2200这样的极端长构图,Flux也能较好的完成出图,并且还能保持故事感。它会根据构图来调整画面内容。甚至可以帮你裁切图片,达到你想要的规格画面。人物的肢体也比较正常。
总结
Flux-Dev特点:
内容:
1. 效果客观不美化,接近相机直出的真实感,作为基底微调非常合适。–test -1
2. 手部正确率高,身材比例基本正确不扭曲。–test -2
3. 背景物品更遵循现实规律,不乱出。–test -3
4. 英文文字正确率高。–test -4
生产:
1. 对长文本的理解力很强,效果对齐精准。–test -5
规格:
1. 分辨率可控程度高。 --test - 6
2. 图片比例支持程度高,特殊比例不畸变。–test -7
Flux-Dev缺点:
内容:
1. 亚洲面孔支持度较弱。
生产:
1. T5所需文本过长,需要借助AI扩写。
这份完整版的AI绘画(SD、comfyui、AI视频)整合包已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】