混元文生图大模型正式开源：15 亿参数、首个中文原生DiT架构、与腾讯现网版本完全一致！...

腾讯云开发者

于 2024-05-15 18:04:35 发布

阅读量1.2k

点赞数 14

文章标签：架构

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/QcloudCommunity/article/details/138930986

版权

👉目录

1 Sora 同源的 DiT 架构

2 中文原生的理解能力提升

3 全面开放，与现网版本完全一致

5 月 14 日，腾讯正式对外开源了全面升级的混元文生图大模型——首个中文原生 DiT 架构（与 Sora 同架构）文生图开源模型，支持中英文双语输入及理解，参数量 15 亿。

升级后的混元文生图大模型不仅支持文生图，也可作为视频等多模态视觉生成的基础，目前已在 Hugging Face 平台及 GitHub 上发布，包含模型权重、推理代码、模型算法等完整模型，可供企业与个人开发者免费商用！

开源地址：https://dit.hunyuan.tencent.com/

以下，给大家汇报一下混元文生图大模型的技术亮点！

01

Sora 同源的 DiT 架构

大模型的优异表现，离不开领先的技术架构。升级后的腾讯混元文生图大模型采用了全新的 DiT 架构（Diffusion With Transformer），这也是 Sora 和 Stable Diffusion 3 的同款架构和关键技术，是一种基于 Transformer 架构的扩散模型。

从 2023 年 7 月起，腾讯混元文生图团队就明确了基于 DiT 架构的模型方向，并启动了新一代模型研发。今年初，混元文生图大模型已全面升级为 DiT 架构。

腾讯混元团队认为基于 Transformer 架构的扩散模型（如 DiT）具有更大的可扩展性，很可能成为下一代主流视觉生成架构：未来，DiT 架构很可能会成为文生图、生视频、生 3D 等多模态视觉生成的统一架构。

在 DiT 架构之上，腾讯混元团队在算法层面优化了模型的长文本理解能力，支持最多 256 字符的内容输入，达到行业领先水平。同时，在算法层面创新实现了多轮生图和对话能力，可实现在一张初始生成图片的基础上，通过自然语言描述进行调整，从而达到更满意的效果。

数据显示，在通用场景下，基于 DiT 视觉生成模型的文生图效果，视觉生成整体效果提升20%，画面真实感、质感与细节、空间构图等全面提升，并在细粒度、多轮对话等场景下效果提升明显。

02

中文原生的理解能力提升

此前的主流文生图开源模型如 Stable Diffusion，核心数据集以英文为主，在此之上的中文应用本质上是通过中译英的方式处理文本，经常出现牛头不对马嘴的理解偏差，生成莫名其妙的结果图片。

混元文生图是首个中文原生的 DiT 模型，具备中英文双语理解及生成能力，在古诗词、俚语、传统建筑、中华美食等中国元素的生成上表现出色。

生成示例：请将“杞人忧天”的样子画出来

03

全面开放，与现网版本完全一致

基于此次开源的文生图模型，开发者及企业无需重头训练，即可直接用于推理，并可基于混元文生图打造专属的 AI 绘画应用及服务，能够节约大量人力及算力。透明公开的算法，也让模型的安全性和可靠性得到保障。

值得一提的是，本次开源版本与腾讯混元文生图产品（包括微信小程序、Web端、云 API 等）最新版本完全一致，基于腾讯海量应用场景训练，个人和企业开发者均可免费商用，与社会共享最新成果！

最后，欢迎各位开发者和企业客户试用，诚邀大家参与一起共建！

拍砖地址：https://dit.hunyuan.tencent.com/

-End-

你对混元文生图大模型有什么期待？使用体验如何？欢迎评论留言。我们将选取1则优质的评论，送出腾讯云开发者定制眼罩1个（见下图）。5月21日中午12点开奖。

📢📢欢迎加入腾讯云开发者社群，享前沿资讯、大咖干货，找兴趣搭子，交同城好友，更有鹅厂招聘机会、限量周边好礼等你来~

（长按图片立即扫码）

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。