自 2025 年 1 月 DeepSeek R1 发布以来,全球的大模型公司迅速进入到一种群雄逐鹿的状态之中。谷歌、OpenAI、Anthropic、阿里巴巴、Grok 等公司相继发布了更强大的模型。
这周,轮到智谱 AI 的表演了。
智谱是中国老牌的大模型创业公司,成立于 2019 年,技术功底尤其扎实。去年年底,我曾经做过一个自然语言转 SQL 的小工具,最后测试发现,其他模型准确率都不算高,但智谱效果却不错。
我们 CTO 说过一句经典的话,大模型赛场,并不是谁的嗓门大,谁的效果就最好。春节后,看到各个公司你追我赶,竞争特别激烈。但我非常清楚,国内还有一个重要的选手智谱没有出招。
现在,它来了!其实,大家可能忘了,智谱 AI 是国内大模型的开源先锋。2022 年,大模型刚刚在国内热起来时,他们就曾经开源过 GLM-130B,那是我们曾经独立部署的第一个模型。
昨天,智谱完成了一笔超过 10 亿元的战略融资,还是来自 DeepSeek 大本营杭州!今天,他们又带来一个令人振奋的好消息,宣布基于 Apache2.0 协议开源全球最好的文生图模型 CogView4。CogView4 的性能非常好,而且还是首个能生成中国字的文生图模型,具有更高的实用性。
在多模态生成模型的综合性评测基准 DPG-Bench 中,CogView4 综合评分第一,超过目前最好的模型 Stable Diffusion 3 和 FLUX.1。
模型仓库地址:https://huggingface.co/THUDM/CogaView4-6B
具体来讲,CogView4 有三个重要的技术突破:
第一,不同于 SD3 等模型,CogView4 对中文的支持非常好。毕竟是国内团队做的,无论是中文,还是英文提示词,CogView4 都能够充分理解。甚至直接输入古诗文,它都能够生成出来匹配度非常高的图片。这在之前,没有任何一款产品能够做到。
第二,能生成中文字符。过去的文生图模型中,一个难点是在图片中生成文字,特别是汉字。这次 CogView4 尝试部分解决了该问题,它支持在图片中生成中英文字符,甚至可以是中英文混合的图片。效果没有达到尽善尽美,但也已经迈出重要一步。
第三,它遵循的提示词的能力特别强,并且支持任意长度的提示词。提示词,可长可短。图片质量方面,CogView4 能够生成指定范围内任意分辨率的图像。这对于专业使用场景来说是个重大利好。
现在智谱的 CogView4 已经开源,后面很快还会增加 ControlNet、ComfyUI 等生态支持,这儿绝对蕴藏着新机会。想创业,或者做独立开发的朋友,建议重点关注下。
为什么它对中文的支持能够如此强大?我问了下社区,在模型的文本编码器阶段,行业其他模型基本都在用 Google 2019 年提出的纯英文的 T5 模型,而 CogView4 把 T5 替换为了自研的、具备双语能力的 GLM-4 Encoder,同时,还花了大量精力对中英文图片进行训练。
我刚刚已经激动地部署了模型,做完了测试,咱们上手实际效果看看。虽然 CogView4 也还存在一些小问题,比如幻觉,但整体来看,它是我看到的最好的开源文生图模型,生成的图片质量,以及对提示词的控制都超过其他的一系列开源模型。
首先咱们先试试它的中文识别能力。下个月就是清明节,我们试着让 CogView4 生成一张清明时节的踏青图片,看看效果怎么样。我的要求是,图片上必须有清明俩字。下面是最终生成的图片,提示词就不放了,不复杂,非常简单。
上面我测试了在图片中直接让它生成中文,其实这并不容易。说明一下,我也不是一次性生成的,中间有两次,在字的生成上出现了幻觉,清字多了一横,最后生成的这一次效果还是非常好。
除了能在图片中准确地嵌入中文外,我认为 CogView4 的另外一个特性是对中文的理解和遵循能力比较强。比如说中文里,我们平常比较难理解的就是诗词,诗词简短几个就要描绘了一种意境,别说 AI,就是我们人类,有时候都没那么容易理解。
所以我也测试了一个,把诗词扔给它,再把我的理解也一起给它,让它帮我生成图片。你可以看到下面的最终展示效果,整体看起来让我非常满意。
接着我把难度升级一下,试试复杂的多区域控制效果。在一张图片中,分别生成春夏秋冬四个季节的场景。说是生成一张图,其实它是四张图的,而且这四张图不是单独的,情景得能连贯起来,这是有难度的,你看看效果,也不错。
我想到一个场景,用这个能力完全可以给孩子的课本配图。昨天,我们家孩子的语文作业就是有几组词描写春夏秋冬。我打算晚上用 AI 来和他一起玩这些作业。
然后我又让 CogView4 帮我生成一张花木兰从军的图片,提示词也很复杂,特意描写了营地具体情况和衣服细节,并且要求在图片上写上 “花木兰” 三个字。生成的图片是这样的:
周末在 X 上看到一个帖子,有个国外的工程师讲,如果没有中国公司的开源,那大模型的世界必定少了一分光彩。这话说得特别好。今天智谱开源文生图模型,只是他们的开始,未来还会有更多。记得吧,之前智谱推出的 AutoGLM,能够模拟人类操作手机,执行各种任务,这个方向非常有意义。期待他们的更多新作品。
最后,致敬那些把创新往前推进一公里的公司。
文章转自我朋友的公众号:AI 产品阿颖,感兴趣的朋友可以关注一下。
最后,介绍一下我的星球社群,「AIGC・掘金成长研习社」,一个高质量陪伴成长社群,主打陪伴和成长,我会每天第一时间在里面分享很多最新的知识和各种干货,持续坚持至少分享 10 年。
星球内有很多干货,有 AI 工作流,Coze 智能体教程,有 AI 编程的教程,有 AI 副业或者个人成长、商业思考等内容。
💡只需 69 元解锁全年 AI 进化指南:
✅ AI 领域的最新趋势与应用
✅保姆级 AI 工作流搭建教程
✅Coze 智能体开发全攻略
✅AI 编程实战案例手册
✅AI + 副业变现深度解析和实战干货
✅每日商业思考笔记连载
🎁新用户专享:3 天无理由全额退款
(悄悄说:已有 520 + 学员通过教程获得成长)
📌适合人群:
想用 AI 提升工作效率 / 开拓副业赛道 / 构建商业思维的终身学习者
早加入早受益,用一天的饭钱换全年 AI 进化加速!🚀
长按扫码加入「AIGC・掘金成长研习社」,一起掘金,一起暴富,一起用 AI 赋能!
点击下方「非著名程序员」公众号卡片
关注我
在公众号对话框,回复关键字 “1024”
有惊喜