5月16日,腾讯在官网和官方公众号正式发布了旗下大模型平台“混元”2.0版本的图像生成功能升级。
这次升级,腾讯宣布:
-
生成图片的速度可达 平均2秒,最快1.5秒出图;
-
语义理解能力更强;
-
图文对齐能力显著提升;
-
支持复杂场景生成。
虽然没有举行高调发布会,也没铺天盖地打广告,但这条消息很快就在 AI 圈和技术群里刷屏。
毕竟这是鹅厂第一次真正意义上把“AI生图”功能端到用户面前,还直接对标 Midjourney 和 DALL·E。
而且重点是——这次真的快。
这事我一开始是不信的。
你说你做大模型的,画图能快过Midjourney,甚至快过GPT-4o?拜托,腾讯耶,国内企业耶,咱都懂的,“稳重保守、低调求生”那一挂的。
但最近,真的看傻了。
我们先不急着高潮,铺垫一下,混元2.0是腾讯去年底发布的大模型家族的升级版本。
但这次重点不是文字生成,而是图片生成。
对,说的是你们最近朋友圈刷到的那堆“生图快如闪电”“堪比MJ”的文章。
本来我是不太关心生图这块的,毕竟MJ稳如老狗,DALL·E是微软亲儿子,国内生图基本就是玩玩 Stable Diffusion 那套 reskin 皮肤。但混元这波操作,真的不一样。
我废话不多说,咱直接看图!
“人像摄影,爱因斯坦,背景是东方明珠电视塔,自拍角度。可以看到,画面是在实时变化的,加入了背景,并在最后切换了拍摄角度”
我整个人直接起立鼓掌,这图质量先不说是不是 9.5 分的 MJ 水平,但从语义理解、构图准确性、细节表达上:
鹅厂这次是真的干了!
说真的,我测了这么多图生模型,国内的很多都是“时间旅行者”体验——你下了 prompt,洗个澡、打个盹,它差不多也就准备好了。
但混元生图真的是——刚点完,就出来了,根本不给你打开微博发条牢骚的时间。
腾讯自己怎么说的?
“高效图像生成能力,平均出图时间 2 秒,快至 1.5 秒。”
注意啊,这不是“响应时间”,是图出完的时间!
我当时整个人脑子里就冒出一个词:
“Midjourney杀手”
最关键的:它居然,理解 prompt!
你用过 MJ 就知道,它图是好,但 prompt 超玄学,什么“realistic、award winning、35mm film”一堆调料撒上去才行。
但混元?
你说“一个女生,亚洲面孔,大眼睛,笑容灿烂,长头发,穿中式服装,戴上帽子,手绘风格”,它真就画出来了,尤其是戴上帽子这个环节,能够看出帽子是根据衣服风格选的类似蓑笠那种帽子,而不是棒球帽,整体风格把握上没有一点违和感。
我服了,这语义解析和内容理解,明显有中文语言大模型的buff加持,能听懂咱正常说人话了。
不过也有瑕疵:
对汉字的生成能力还不太行。
比如有图里一扇门贴着一个“福”字,结果生成的是个四不像的字形,连汉字都不是,更别说“福”了。
这个问题在 Midjourney 和 SD 上也常见,看来对中文字符的图像建模依然是一个难点,鹅厂也还在努力中。
根据鹅厂自己放出来的资料,这玩意背后不是简单的 SD LoRA 魔改,也不是 MJ 那种纯图像模型,而是个混合路线:
-
Prompt解析:基于混元大模型语言理解能力
-
图像生成:自研扩散模型(不是开源套壳)
-
超分与修复:集成腾讯原有图像增强技术(鹅厂搞图像算法很多年了)
说白了,鹅厂这次用了一个“国产通吃”的策略:语言理解+图像合成+优化链路一体打包。
重点不是单点突破,而是链条整合。
听起来是不是很腾讯?对,很鹅厂,但这次它不是拖,而是真的快。
目前还是内测阶段,很多能力还在迭代,比如:
-
某些细节仍然不如 MJ 稳,比如脸部细节、衣物纹理有时会糊;
-
汉字生成能力较弱,不能精确生成中文书写内容。
但总体来看:它不是不行,是刚上线就这么能打,已经相当惊艳了。
图能商用吗?居然真的能!
最让我震惊的是这个功能居然……直接就给你商用授权了!
我本来想点个使用条款看看怎么收费,结果发现混元官网赫然写着:
“平台生成内容可用于商业用途。”
???腾讯你认真的吗?国内这么保守的环境,你居然默认放开商用?!
要知道,Midjourney 得开Pro会员才有商用资格,DALL·E也得搞清API使用政策,Stable Diffusion 更别说了,用了别人的模型和LoRA,一不小心就侵权。
但鹅厂这次,居然上来就写得清清楚楚,内容你拿去用,商用你随意,别侵犯别人就行。
我一边揉眼睛一边想:
“鹅厂你变了,居然开始讨好内容创作者了?”
对搞图、做视频封面、出漫画、写文章配图的人来说,这就是当头一棒的好消息。
目前混元2.0的图像生成功能,已开放申请测试资格。
只要你登录微信扫码,进到腾讯混元官网控制台,申请排队,有机会抢先体验:https://hunyuan.tencent.com/
国产AI,终于开始争口气了。
不是吹,混元生图真的是目前国内体验最好的图生工具,没有之一。
它的快,它的准,它的中文语义理解能力,真的不输外面的兄弟。
值得关注、值得排队、值得等它公测上线!
关注 我,免费拿 AI 学习资料和最新科技圈的风口资讯,AI 圈大佬人脉链接等~
你觉得大模型不好用,可能是你不会写提示词,破晓为你准备了海量高效提示词模板,只需要关注gzh,回复【提示词】免费拿取
AI 现在正直风口,对于普通人这玩意真不难,最关键的是,就看你愿不愿意开始那第一步。
愿大家生活愉快~