平均2秒闪电式图像生成到底卷成啥样

5月16日,腾讯在官网和官方公众号正式发布了旗下大模型平台“混元”2.0版本的图像生成功能升级。

这次升级,腾讯宣布:

  • 生成图片的速度可达 平均2秒,最快1.5秒出图

  • 语义理解能力更强;

  • 图文对齐能力显著提升;

  • 支持复杂场景生成。

虽然没有举行高调发布会,也没铺天盖地打广告,但这条消息很快就在 AI 圈和技术群里刷屏。

图片

毕竟这是鹅厂第一次真正意义上把“AI生图”功能端到用户面前,还直接对标 Midjourney 和 DALL·E。

而且重点是——这次真的快。

这事我一开始是不信的。

你说你做大模型的,画图能快过Midjourney,甚至快过GPT-4o?拜托,腾讯耶,国内企业耶,咱都懂的,“稳重保守、低调求生”那一挂的。

但最近,真的看傻了。

我们先不急着高潮,铺垫一下,混元2.0是腾讯去年底发布的大模型家族的升级版本。

但这次重点不是文字生成,而是图片生成

对,说的是你们最近朋友圈刷到的那堆“生图快如闪电”“堪比MJ”的文章。

本来我是不太关心生图这块的,毕竟MJ稳如老狗,DALL·E是微软亲儿子,国内生图基本就是玩玩 Stable Diffusion 那套 reskin 皮肤。但混元这波操作,真的不一样。

我废话不多说,咱直接看图!

“人像摄影,爱因斯坦,背景是东方明珠电视塔,自拍角度。可以看到,画面是在实时变化的,加入了背景,并在最后切换了拍摄角度”

图片

我整个人直接起立鼓掌,这图质量先不说是不是 9.5 分的 MJ 水平,但从语义理解、构图准确性、细节表达上:

鹅厂这次是真的干了!

说真的,我测了这么多图生模型,国内的很多都是“时间旅行者”体验——你下了 prompt,洗个澡、打个盹,它差不多也就准备好了。

但混元生图真的是——刚点完,就出来了,根本不给你打开微博发条牢骚的时间。

腾讯自己怎么说的?

“高效图像生成能力,平均出图时间 2 秒,快至 1.5 秒。”

注意啊,这不是“响应时间”,是图出完的时间!

我当时整个人脑子里就冒出一个词:

“Midjourney杀手”

最关键的:它居然,理解 prompt!

你用过 MJ 就知道,它图是好,但 prompt 超玄学,什么“realistic、award winning、35mm film”一堆调料撒上去才行。

但混元?

你说“一个女生,亚洲面孔,大眼睛,笑容灿烂,长头发,穿中式服装,戴上帽子,手绘风格”,它真就画出来了,尤其是戴上帽子这个环节,能够看出帽子是根据衣服风格选的类似蓑笠那种帽子,而不是棒球帽,整体风格把握上没有一点违和感。

图片

我服了,这语义解析和内容理解,明显有中文语言大模型的buff加持,能听懂咱正常说人话了。

不过也有瑕疵:

对汉字的生成能力还不太行。

比如有图里一扇门贴着一个“福”字,结果生成的是个四不像的字形,连汉字都不是,更别说“福”了。

Image

这个问题在 Midjourney 和 SD 上也常见,看来对中文字符的图像建模依然是一个难点,鹅厂也还在努力中。

根据鹅厂自己放出来的资料,这玩意背后不是简单的 SD LoRA 魔改,也不是 MJ 那种纯图像模型,而是个混合路线:

  • Prompt解析:基于混元大模型语言理解能力

  • 图像生成:自研扩散模型(不是开源套壳)

  • 超分与修复:集成腾讯原有图像增强技术(鹅厂搞图像算法很多年了)

说白了,鹅厂这次用了一个“国产通吃”的策略:语言理解+图像合成+优化链路一体打包

重点不是单点突破,而是链条整合。

听起来是不是很腾讯?对,很鹅厂,但这次它不是拖,而是真的快。

目前还是内测阶段,很多能力还在迭代,比如:

  • 某些细节仍然不如 MJ 稳,比如脸部细节、衣物纹理有时会糊;

  • 汉字生成能力较弱,不能精确生成中文书写内容。

但总体来看:它不是不行,是刚上线就这么能打,已经相当惊艳了。

Image

图能商用吗?居然真的能!

最让我震惊的是这个功能居然……直接就给你商用授权了!

我本来想点个使用条款看看怎么收费,结果发现混元官网赫然写着:

“平台生成内容可用于商业用途。”

???腾讯你认真的吗?国内这么保守的环境,你居然默认放开商用?!

要知道,Midjourney 得开Pro会员才有商用资格,DALL·E也得搞清API使用政策,Stable Diffusion 更别说了,用了别人的模型和LoRA,一不小心就侵权。

但鹅厂这次,居然上来就写得清清楚楚,内容你拿去用,商用你随意,别侵犯别人就行。

我一边揉眼睛一边想:

“鹅厂你变了,居然开始讨好内容创作者了?”

对搞图、做视频封面、出漫画、写文章配图的人来说,这就是当头一棒的好消息。

目前混元2.0的图像生成功能,已开放申请测试资格

只要你登录微信扫码,进到腾讯混元官网控制台,申请排队,有机会抢先体验:https://hunyuan.tencent.com/

国产AI,终于开始争口气了。

不是吹,混元生图真的是目前国内体验最好的图生工具,没有之一。

它的快,它的准,它的中文语义理解能力,真的不输外面的兄弟。

值得关注、值得排队、值得等它公测上线!

关注 我,免费拿 AI 学习资料和最新科技圈的风口资讯,AI 圈大佬人脉链接等~

你觉得大模型不好用,可能是你不会写提示词,破晓为你准备了海量高效提示词模板,只需要关注gzh,回复【提示词】免费拿取

图片

AI 现在正直风口,对于普通人这玩意真不难,最关键的是,就看你愿不愿意开始那第一步。

愿大家生活愉快~

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值