腾讯推出了其混元文生图大模型

最新推荐文章于 2024-11-04 19:24:37 发布

AI科技分享

最新推荐文章于 2024-11-04 19:24:37 发布

阅读量449

点赞数 4

文章标签：算法线性回归回归机器学习深度学习

本文链接：https://blog.csdn.net/aigchouse/article/details/139610138

版权

腾讯推出了其混元文生图大模型（HunyuanDiT），这是一个具有划时代意义的开源模型。该模型采用了业内首个中文原生DiT架构，此次开源，腾讯不仅提供了模型权重和推理代码，还包括了完整的模型算法，使得企业和个人开发者可以免费商用。

腾讯官方宣布，混元 DiT 模型已大幅简化使用流程，用户现在可以通过 ComfyUI 的可视化界面轻松利用腾讯的混元文生图模型。此外，混元 DiT 模型也已集成至 HuggingFaceDiffusers 的通用模型库，用户仅需编写三行代码即可实现对该模型的调用，无需再下载整个代码库。

用户现在可以通过 ComfyUI 的可视化界面轻松利用腾讯的混元文生图模型

混元文生图大模型采用了与Sora相同的DiT架构，即全新的Hunyuan-DiT架构。，这是一个创新的基于Diffusion Transformer的文本到图像生成模型，它具备了中英文的细粒度理解能力。在混元DiT的研发过程中，腾讯精心设计了Transformer架构、文本编码器和位置编码，以确保模型能够深入理解双语文本。腾讯团队还构建了一个全面的数据处理流程，用于不断地更新和评估数据，以支持模型的持续优化。为了提升对文本细节的理解，腾讯训练了一个多模态大型语言模型，专门用于优化图像生成中的文本描述。因此，混元DiT能够与用户进行多轮互动，根据对话内容生成并改进图像，提供更加精准和丰富的视觉体验。

混元文生图大模型采用了与Sora相同的DiT架构，即全新的Hunyuan-DiT架构。

在性能方面，混元文生图大模型在多个维度上进行了评估，结果显示其性能远超目前开源的Stable Diffusion模型，被认为是目前效果最好的开源文生图模型之一。它的整体能力属于国际领先水平。

此外，混元文生图大模型在算法层面实现了多轮生图和对话能力，能够在一张初始生成图片的基础上，通过自然语言描述进行调整。这个模型还特别擅长处理细粒度文本提示生成，例如在古诗词、俚语、传统建筑、中华美食等中国元素的生成上表现出色。

腾讯此次选择将混元文生图模型全面开源，旨在与行业共享其在文生图领域的实践经验和研究成果，丰富中文文生图开源生态，共建下一代视觉生成开源生态，推动大模型行业的发展。基于腾讯开源的文生图模型，开发者和企业无需从头训练，即可直接用于推理，从而节约大量人力和算力。

随着混元文生图大模型的发布和开源，我们有理由相信，这将极大地推动视觉生成技术的发展，为各行各业带来更多的创新可能。

AI科技智库👉️👉️👉️www.aigchouse.com，一站式AI工具、资料、课程资源学习平台，每日持续更新。通过分享最新AI工具、AI资源等，帮助更多人了解使用AI，提升工作和学习效率。这里有海量AI工具整合包、AI学习资料、AI免费课程和AI咨询服务，AI之路不迷路，2024我们一起变强。