【AGI-Eval评测报告】混元图像2.0模型开箱评测,模型实测效果大放送!

di腾讯几天前发布混元图像 2.0 模型,创新性地实现了“边说话边出图”、“边打字边出图”的功能,为我们带来了前所未有的交互新体验,那么它的实际能力表现又如何了?现在就为大家实测一波。

目录:

1.腾讯混元图像 2.0 模型介绍

2.腾讯混元图像 2.0 模型开箱评测

   2.1 评测核心结论

   2.2 实时文生图评测

   2.3 实时绘画板评测

1. 腾讯混元图像 2.0 模型介绍

以往的模型生图需要输入完整的 prompt,继而等待图像生成,在等待过程中,如果突然有了新的想法,也只能等图像生成完之后才能看到是不是想要的图片效果。

现在这个难题有了解决方案,腾讯发布混元图像 2.0 模型突破性实现毫秒级实时响应,支持边描述边生成的动态交互。用户输入、修改prompt时,模型实时完成图像重绘,告别传统生成等待耗时。

混元图像2.0新增“实时绘画板”功能 。用户手绘元素轮廓 + 文字注释,模型就能即时生成高精度效果图,让创意灵感快速落地为具象画面,让模型生图从“输入提示词-等待模型生成”的线性节奏,变成了输入与输出同步发生的实时交互。

Image

腾讯混元图像 2.0 模型三大亮点

1.效率与质感并行:讯混元图像 2.0 模型实现了毫秒级的创作速度和超写实画质,号称是首个商业化毫秒级响应文生图模型,并对图像质感做了系统性重构,可达到高写实效果,可用性高。

2.多语义理解能力腾讯混元图像 2.0 模型引入多模态大语言模型(MLLM)作为文本编码器,配合自研的结构化 caption 系统,语义响应速度遥遥领先,在GenEval评测集上,腾讯号称以0.9597超过了所有文生图模型。不仅能理解你在说什么,更能快速推测出你希望画面「怎么表达」。

Image

3.多重使用方式:于普通创作者而言,只需文字输入或语音说出提示词,无论是做社交配图、教学插图,还是记录灵感片段,模型都能实时生成图像。

对于有设计基础的用户,可以实时画布、多层编辑。用户在左侧绘制线稿,右侧同步生成光影、材质等细节;还支持图层叠加与局部调整,帮助用户从草图到成图「一气呵成」,有效突破传统绘图软件中「绘制-等待-修改」的流程。

Image

模型体验入口:https://hunyuan.tencent.com/

2.模型开箱评测

那么 ,腾讯混元图像 2.0 模型在实测表现中又如何呢?

首先来看本次开箱评测的核心结论。

2.1 评测核心结论

AGI-Eval 大模型评测社区第一时间做了模型评测,评测结论如下:

腾讯混元图像 2.0 模型在实时生成速度和交互模式上实现了一定突破,尤其适合快速获取基础视觉素材或日常娱乐图像。然而,模型输出效果在细节精度、语义理解和真实感方面仍存在一定局限,比如生图存在明显AI感暂不适合专业性要求较高的办公或设计场景。建议用户根据实际需求权衡使用,优先用于概念生成和创意探索,并结合人工后期处理提升最终图像效果。

2.2 实时文生图评测

那么首先来看实时文生图功能,我们将从无参考图有参考图两个方向进行评测。

2.2.1 无参考图类型

prompt1:春天,温暖的室内,一只布偶猫蹲在窗户旁看外面的阳光,凝视着窗户外洒落的阳光

Image

经实测发现,腾讯混元图像 2.0 模型确实可以根据prompt的修改实时生成图像,并且达到毫秒级速度响应。从图中可以看出一只布偶猫在望着窗外,猫种特征明显,动作及窗外置景基本符合prompt的描述。

为了测试腾讯混元图像 2.0 模型的能力边界,我们拓展下 prompt,看生成的画面能否更加丰富。

prompt:春天,温暖的室内,一只布偶猫蹲在窗户旁看外面的阳光,凝视着窗户外洒落的阳光,接着又有一只无毛猫跳了上来,它们俩没有对视,挨着一起,看窗户外一只蓝色蝴蝶,在它们身后,是室内的茶几、茶杯、电视和沙发

Image

可见,腾讯混元图像 2.0 模型在测试中出现生成图片跟指令不符的情况,画面闪烁不定,输入指令明确为“它俩没有对视”,而画面闪过的两只猫在互相对视;prompt明确是“窗外的蝴蝶”,而画面中的蝴蝶是室内的,图像层次不清晰;并且画面元素缺失,“室内的茶几、电视和沙发”的prompt被吞掉,模型的指令遵循不佳。

从这个测试结果来看,腾讯混元图像 2.0 模型的实时文生图能够基本满足画面生成需求,但其存在较多指令遵循问题,生成的画面也存在较多的细节问题。

prompt 2 :一个餐桌,上面有一口冒着泡泡的田字格火锅,火锅里有很多辣椒,俯视来看,锅的周围摆满了蔬菜和牛肉羊肉毛肚

Image

腾讯混元图像 2.0 模型生成的这张火锅图,开始锅里还在冒火,火锅里的辣椒居然可以那么大,与现实场景中的不同,对火锅周围的蔬菜和肉类的生成也不精准,分类模糊,“田字格火锅”的形状也没有呈现出来。

Image

我们特意缩短 prompt,然而模型生成的图像在细节上无法很好地满足需求,甚至存在图文不符的情况,比如要求生成的是娃娃菜,图像生成的是几头蒜,AI味过重。

prompt 3:一辆锈迹斑斑的红色皮卡车,配有白色轮圈

Image

我们为其准备了一个简单的prompt,混元图像 2.0 模型可以快速精准满足需求,质感相对来说较真实。

prompt 4:苹果品牌的logo是一个被咬了一口的苹果,用同样的规律生成一张"香蕉品牌"的logo

Image

腾讯混元图像 2.0 模型生成的这张"香蕉品牌"的 logo 图,在输入完前半句 prompt 时可以满足需求,但明显语义理解和逻辑推理上存在不足,生成了一张组合图,与我们想要的效果图完全不符。

prompt 5:以行星为主题,按照真实的位置分布和大小比例画出太阳系的八个大行星

Image

这张图片只画了5个行星,并没有画出太阳系的八个大行星,更没有按照位置排布,对学科知识的掌握弱于GPT-4o

prompt 6:一张微笑的憨豆先生黑白照,在抽着香烟跟一位女士在交谈

Image

混元图像 2.0 对单主体 prompt”微笑的憨豆先生黑白照"生成精准,展现强理解力。但处理多元素组合指令"抽香烟 + 与女士交谈”时,虽中间过程短暂符合要求,最终输出却将抽烟主体错误映射至女士,多主体交互场景的指令遵循能力差,生成的动作与主体不相符,多对象交互场景的语义一致性较差。

prompt 7:蒙娜丽莎的微笑这幅画,让蒙娜丽莎用手挡住嘴哭泣

Image

prompt 中前半句可以满足,画面的还原度较高,输入prompt的后半句可以看到眼泪的痕迹,虽然语义上可以对齐,但与现实并不相符,哭泣时的表情仍在微笑,没有结合现实因素。

prompt 8:富士山下的樱花树林,超清,真实摄影

Image

这张图的生成效果较好,画面的真实度非常高,画面构成也符合需求,完成度很高。

prompt 9:用很多朵红玫瑰编织而成的上海武康大楼,这是一座建在30°锐角的路口上,楼身狭长像一艘轮船,采用法国文艺复兴式建筑风格,墙上有一个LED屏,展示腾讯混元图像 2.0 模型的字样,街道上很多行人,敞篷跑车在等红绿灯,背景是上海的老建筑,天空格外晴朗,能看到太阳光

Image

腾讯混元图像 2.0 模型满足 prompt 提到的“行人、跑车、红绿灯、老建筑”等元素,但不符合常识,对上海著名地标不清楚,生成的内容图文不符,LED屏内容显示不清楚,存在明显字符畸形。

tips:如果遇到画面没有变化时,可以点击画质优化,也可以起到刷新的作用。

Image

2.2.2 有参考图类型

为了给大家对比测试有无参考图,对模型生成图像的影响,我们仍选用了上述prompt9的内容,紧接着将武康大楼的参考图上传,看看效果。

prompt 1:用很多朵红玫瑰编织而成的上海武康大楼,这是一座建在30°锐角的路口上,楼身狭长像一艘轮船,采用法国文艺复兴式建筑风格,墙上有一个LED屏,展示腾讯混元图像 2.0 模型的字样,街道上很多行人,敞篷跑车在等红绿灯,背景是上海的老建筑,天空格外晴朗,能看到太阳光

Image

可以看出,有了参考图,轮廓和建筑风格上至少会相似几分,但形状和样式却相去甚远,少部分内容按照 prompt 生成;同时,点击参考轮廓会比参考主体的构图更贴近原图,但整体来看都没有按照 prompt 的需求来生成,整体指令遵循能力较差,生成图片质量不高。

prompt 2 :按照参考图片的风格,生成一个都市女白领喝咖啡的照片

此次我们给到参考图,为宫崎骏风格,但是 prompt 并没有明确说明是“宫崎骏风格”,需要腾讯混元图像 2.0 模型自己识别。

Image

腾讯混元图像 2.0 模型 在艺术风格迁移测试中显现技术短板:当输入指令明确要求"宫崎骏风格"并细化场景描述后,输出图像仍未能呈现该风格标志性特征。

测试表明,当前版本对艺术风格关键词的语义解析存在表层化问题,且在复合指令(风格定义+生物特征+空间逻辑)叠加场景下,生成系统难以有效协调多维度参数,导致核心要素丢失或风格表达失真。

Image

这次我们在 prompt 中,指出了参考图为宫崎骏风格,生成的画面符合我们的需求,生成的都市女性是“宫崎骏风格”的。

2.3 实时绘画板评测

来到实时绘画板区域,左边是你的创意画板,右边就是实时生图的区域,绘画板图片的生成速度慢于实时文生图,不过还是可以接受的。这里依旧将从无参考图有参考图 两个方向进行评测。

2.3.1 无参考图类型

实时绘画板的使用,可以先在左边手绘参考图,下方输入 prompt,在右侧生成图片。

prompt 1:两个生日蛋糕,上面都有两支蜡烛

Image

这是一个基础的绘画问题,腾讯混元图像 2.0 模型生成了两个生日蛋糕,很明显,绘画板上左侧是一个单层蛋糕,右侧是一个双层蛋糕,而生成了两个蛋糕,均为单层蛋糕,对更细节的层次数量上还无法满足。

prompt 2:三颗流星划过地球上空,旁边有一个小飞碟

Image

在此案例中,图片的生成效果尚可,颇有“大片感”,但也存在严重的问题,prompt中要求三颗流星、一个飞碟,图片中却出现了四颗流星,两个飞碟。说明模型对“数字”掌握的不好。

prompt 3:古装男女主相对站立,深情望着彼此,背景为古代城墙

Image

生成的图片基本包含左侧画板中的元素,通过人物的样貌与穿着可初步认为是在中欧时期,背景的城墙未按照画板内容完全显示,在原始绘图细节还原上存在一定的瑕疵。

prompt 4:夜晚的雪山全景,雪山下是一片雪地,银河横跨天际,山巅覆盖积雪,天上有云朵,云朵被月光染成淡紫色,高清, 写实风格

Image

在生成写实图时,无法按照描述100%对应,当图片强度为100时,就完全按照所描绘的图画形成右侧内容,但内容带有动漫感;同时降低图片强度就会减弱对画板内容的依赖,更多的参考文本内容。

prompt 5:苹果品牌的logo是一个被咬了一口的苹果,用同样的规律生成一张"香蕉品牌"的logo

Image

腾讯混元图像 2.0 模型的实时绘画板,也无法实现"香蕉品牌"的logo。只能对针对画板的内容进行生图,无法生成创意类的设计。

2.3.2有参考图类型

也可以先上传参考图,再在参考图中增加画面细节,我们上传了一张小狗图,并输入prompt,在绘画板中绘制了小猫简笔画。

prompt 1:身着红色衣服的小狗开心地笑着,身旁有一只小猫咪

结合参考图,腾讯混元图像 2.0 模型生成了一张憨态可掬的图片,画面背景虚化,突出主体,宛如摄影作品。

Image

prompt 2:将猫咪领结的颜色变成绿色,蝴蝶

腾讯混元图像 2.0 模型生成了一张不错的动漫图,一个戴着绿色领结的猫咪生成了,猫咪毛发清晰真实。

Image

prompt 3:城市高楼大厦林立,傍晚的天空中,左侧飞过飞机,右侧闪耀着绚丽的烟花

Image

混元图像 2.0 在该场景生成中具备基础构图能力,“飞机和烟花”基本满足需求,但对建筑物改动较大,与原始参考图存在明显偏差,同时天空光影处理出现饱和度异常与自然光照失衡,“AI 味” 明显。

以上就是本次开箱的全部内容,可以看到腾讯混元图像 2.0 模型作为行业首个实现实时生成能力的产品,其创新价值值得充分认可。尽管当前效果在细节处理、语义对齐、场景适配等方面仍有很大提升空间,但技术探索的勇气已彰显行业标杆意义。

期待腾讯混元图像 2.0 模型加速迭代,在数字创作、智能设计等更多领域落地应用,以技术突破持续重构视觉生成体验。

— 完 —

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值