智谱 AI 再放大招!文生图开源模型 CogView4 效果炸裂,中文支持无敌!

自 2025 年 1 月 DeepSeek R1 发布以来,全球的大模型公司迅速进入到一种群雄逐鹿的状态之中。谷歌、OpenAI、Anthropic、阿里巴巴、Grok 等公司相继发布了更强大的模型。

这周,轮到智谱 AI 的表演了。

智谱是中国老牌的大模型创业公司,成立于 2019 年,技术功底尤其扎实。去年年底,我曾经做过一个自然语言转 SQL 的小工具,最后测试发现,其他模型准确率都不算高,但智谱效果却不错。

我们 CTO 说过一句经典的话,大模型赛场,并不是谁的嗓门大,谁的效果就最好。春节后,看到各个公司你追我赶,竞争特别激烈。但我非常清楚,国内还有一个重要的选手智谱没有出招。

现在,它来了!其实,大家可能忘了,智谱 AI 是国内大模型的开源先锋。2022 年,大模型刚刚在国内热起来时,他们就曾经开源过 GLM-130B,那是我们曾经独立部署的第一个模型。

昨天,智谱完成了一笔超过 10 亿元的战略融资,还是来自 DeepSeek 大本营杭州!今天,他们又带来一个令人振奋的好消息,宣布基于 Apache2.0 协议开源全球最好的文生图模型 CogView4。CogView4 的性能非常好,而且还是首个能生成中国字的文生图模型,具有更高的实用性。

259f9021c9573cd81ec3291e1158f638.png

在多模态生成模型的综合性评测基准 DPG-Bench 中,CogView4 综合评分第一,超过目前最好的模型 Stable Diffusion 3 和 FLUX.1。

ab8c55f09f35da172fb65a3d55f10983.png

模型仓库地址:https://huggingface.co/THUDM/CogaView4-6B

具体来讲,CogView4 有三个重要的技术突破:

第一,不同于 SD3 等模型,CogView4 对中文的支持非常好。毕竟是国内团队做的,无论是中文,还是英文提示词,CogView4 都能够充分理解。甚至直接输入古诗文,它都能够生成出来匹配度非常高的图片。这在之前,没有任何一款产品能够做到。

第二,能生成中文字符。过去的文生图模型中,一个难点是在图片中生成文字,特别是汉字。这次 CogView4 尝试部分解决了该问题,它支持在图片中生成中英文字符,甚至可以是中英文混合的图片。效果没有达到尽善尽美,但也已经迈出重要一步。

第三,它遵循的提示词的能力特别强,并且支持任意长度的提示词。提示词,可长可短。图片质量方面,CogView4 能够生成指定范围内任意分辨率的图像。这对于专业使用场景来说是个重大利好。

现在智谱的 CogView4 已经开源,后面很快还会增加 ControlNet、ComfyUI 等生态支持,这儿绝对蕴藏着新机会。想创业,或者做独立开发的朋友,建议重点关注下。

为什么它对中文的支持能够如此强大?我问了下社区,在模型的文本编码器阶段,行业其他模型基本都在用 Google 2019 年提出的纯英文的 T5 模型,而 CogView4 把 T5 替换为了自研的、具备双语能力的 GLM-4 Encoder,同时,还花了大量精力对中英文图片进行训练。

我刚刚已经激动地部署了模型,做完了测试,咱们上手实际效果看看。虽然 CogView4 也还存在一些小问题,比如幻觉,但整体来看,它是我看到的最好的开源文生图模型,生成的图片质量,以及对提示词的控制都超过其他的一系列开源模型。

首先咱们先试试它的中文识别能力。下个月就是清明节,我们试着让 CogView4 生成一张清明时节的踏青图片,看看效果怎么样。我的要求是,图片上必须有清明俩字。下面是最终生成的图片,提示词就不放了,不复杂,非常简单。

8c609b2bffefb1ee729b92170c4a00d6.jpeg

上面我测试了在图片中直接让它生成中文,其实这并不容易。说明一下,我也不是一次性生成的,中间有两次,在字的生成上出现了幻觉,清字多了一横,最后生成的这一次效果还是非常好。

除了能在图片中准确地嵌入中文外,我认为 CogView4 的另外一个特性是对中文的理解和遵循能力比较强。比如说中文里,我们平常比较难理解的就是诗词,诗词简短几个就要描绘了一种意境,别说 AI,就是我们人类,有时候都没那么容易理解。

所以我也测试了一个,把诗词扔给它,再把我的理解也一起给它,让它帮我生成图片。你可以看到下面的最终展示效果,整体看起来让我非常满意。

f83fe2b8b6f30894656186b8dd79eee1.png

接着我把难度升级一下,试试复杂的多区域控制效果。在一张图片中,分别生成春夏秋冬四个季节的场景。说是生成一张图,其实它是四张图的,而且这四张图不是单独的,情景得能连贯起来,这是有难度的,你看看效果,也不错。

beb4af33f5177477c94d8de8f7f1a5fb.png

我想到一个场景,用这个能力完全可以给孩子的课本配图。昨天,我们家孩子的语文作业就是有几组词描写春夏秋冬。我打算晚上用 AI 来和他一起玩这些作业。

然后我又让 CogView4 帮我生成一张花木兰从军的图片,提示词也很复杂,特意描写了营地具体情况和衣服细节,并且要求在图片上写上 “花木兰” 三个字。生成的图片是这样的:

40d285373fcbe64dd70c844c013b2128.jpeg

周末在 X 上看到一个帖子,有个国外的工程师讲,如果没有中国公司的开源,那大模型的世界必定少了一分光彩。这话说得特别好。今天智谱开源文生图模型,只是他们的开始,未来还会有更多。记得吧,之前智谱推出的 AutoGLM,能够模拟人类操作手机,执行各种任务,这个方向非常有意义。期待他们的更多新作品。

最后,致敬那些把创新往前推进一公里的公司。

文章转自我朋友的公众号:AI 产品阿颖,感兴趣的朋友可以关注一下。

最后,介绍一下我的星球社群,「AIGC・掘金成长研习社」一个高质量陪伴成长社群,主打陪伴和成长,我会每天第一时间在里面分享很多最新的知识和各种干货,持续坚持至少分享 10 年

星球内有很多干货,有 AI 工作流,Coze 智能体教程,有 AI 编程的教程,有 AI 副业或者个人成长、商业思考等内容。

💡只需 69 元解锁全年 AI 进化指南:

✅ AI 领域的最新趋势与应用

✅保姆级 AI 工作流搭建教程

✅Coze 智能体开发全攻略

✅AI 编程实战案例手册

✅AI + 副业变现深度解析和实战干货

✅每日商业思考笔记连载

🎁新用户专享:3 天无理由全额退款

(悄悄说:已有 520 + 学员通过教程获得成长)

📌适合人群:

想用 AI 提升工作效率 / 开拓副业赛道 / 构建商业思维的终身学习者

早加入早受益,用一天的饭钱换全年 AI 进化加速!🚀

f2fb8c6327c2bdd96d44e9f6ee7944c9.jpeg

长按扫码加入「AIGC・掘金成长研习社」,一起掘金,一起暴富,一起用 AI 赋能

图片

点击下方「非著名程序员」公众号卡片

关注我

在公众号对话框,回复关键字 “1024”

有惊喜

图片

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值