腾讯混元文生图大模型开源训练代码,发布LoRA与ControlNet插件

6月21日,腾讯混元文生图大模型(以下简称为混元DiT模型)宣布全面开源训练代码,同时对外开源混元DiT LoRA 小规模数据集训练方案与可控制插件ControlNet。

这意味着,全球的企业与个人开发者、创作者们,都可以基于混元DiT训练代码进行精调,创造更具个性化的专属模型,进行更大自由度的创作;或基于混元DiT的代码进行修改和优化,基于此构建自身应用,推动技术的快速迭代和创新。

作为中文原生模型,用户在通过混元DiT的训练代码进行精调时,可以直接使用中文的数据与标签,无需再将数据翻译成英文。

此前,腾讯混元文生图大模型宣布全面升级并对外开源,已在 Hugging Face 平台及 Github 上发布,可供企业与个人开发者免费商用。这是业内首个中文原生的DiT架构文生图开源模型,支持中英文双语输入及理解。模型开源仅一个月,Github Star数达到2.4k,位于开源社区热门DiT模型前列。

在这里插入图片描述

混元DiT Github项目页面

在开源训练代码的同时, LoRA小规模数据集训练方案与可控制插件ControlNet的发布也让混元DiT模型的开源生态更具想象力。

LoRA模型,全称Low-Rank Adaptation of Large Language Models,是一种用于微调大型语言模型的技术。在文生图模型中,LoRA被用作一种插件,允许用户在不修改原有模型与增加模型大小的情况下,利用少量数据训练出具有特定画风、IP或人物特征的模型。

LoRA技术在文生图开源领域十分受欢迎,大量的创作者利用这种技术创造出多种多样的模型,比如使用几张个人照片,生成一个专属于某个人的高精度照相馆;或创造出盲盒、黏土等风格模型。

在这里插入图片描述

AI图像社区LiblibAI上的LoRA模型

混元DiT本次发布的专属LoRA插件,支持开发者最少仅需一张图即可创作出专属的模型。比如,导入四张青花瓷图片与相应的提示词,即可完成模型训练,创建了一个“青花瓷”生成模型:用户输入简单提示词,即可生成想要的青花瓷图像。

部分训练数据:
在这里插入图片描述

训练后模型的推理结果示例:

在这里插入图片描述

使用混元DiT LoRA训练的青花瓷生成模型

本次上线的另一个插件ControlNet,则是一种应用于文生图领域的可控化生成算法,它允许用户通过添加额外条件来更好地控制图像的生成。

目前,腾讯混元提供了能提取与应用图像的边缘(canny)、深度(depth)、人体姿势(pose)等条件的三个首发ControlNet模型,让开发者直接使用其进行推理。该三个ControlNet插件能实现通过线稿生成全彩图、生成具有同样深度结构的图、生成具有同样姿态的人等能力。同时,混元DiT也开源了ControlNet的训练方案,开发者与创作者可以训练自定义的ControlNet模型。

在这里插入图片描述

腾讯混元DiT上线的三个ControlNet插件效果演示

自混元DiT模型开源以来,得到了众多开发者的支持和反馈,腾讯混元团队也一直在持续完善和优化基于混元DiT的开源组件,与行业共建下一代视觉生成开源生态。本月初,混元DiT发布的专属加速库,可将推理效率进一步提升,生图时间缩短75%。同时模型易用性大幅提升,用户可以基于ComfyUI的图形化界面,使用混元DiT,或者通过Hugging Face Diffusers通用模型库,仅用三行代码即可调用混元DiT模型,无需下载原始代码库。

据了解,腾讯混元文生图能力已广泛被用于素材创作、商品合成、游戏出图等多项业务及场景中。今年初,腾讯广告基于腾讯混元大模型发布了一站式AI广告创意平台腾讯广告妙思。《央视新闻》《新华日报》等20余家媒体也已经将腾讯混元文生图用于新闻内容生产。

腾讯混元开源文生图大模型
官网:https://dit.hunyuan.tencent.com/
代码:https://github.com/Tencent/HunyuanDiT
模型:https://huggingface.co/Tencent-Hunyuan/HunyuanDiT
论文:https://tencent.github.io/HunyuanDiT/asset/Hunyuan_DiT_Tech_Report_05140553.pdf
数据制作流程:https://github.com/Tencent/HunyuanDiT/blob/main/IndexKits/docs/MakeDataset.md

### 关于混元文生视频大模型技术的概述 #### 技术背景发展历程 随着深度学习算法的进步和计算资源的增长,基于文本生成视频的大规模预训练模型逐渐成为研究热点。这类模型通过大量无标注的数据集进行自我监督学习来获取通用特征表示能力,并在此基础上完成特定任务。 #### 混元文生视频大模型的特点 混元文生视频大模型是一种专注于将自然语言描述转换成高质量动态影像的技术方案。该类模型通常具备以下几个显著特性: - **强大的跨模态理解**:能够深入解析输入文字背后的语义信息并将其映射到视觉空间内; - **高效的像合成机制**:采用先进的生成对抗网络(GANs)、变分自编码器(VAEs)或其他创新架构实现逼真的画面渲染效果; - **灵活的时间序列建模**:不仅限于静态片创作,更擅长构建连贯流畅的动作片段或场景演变过程[^1]。 #### 最新进展 目前,在国际上领先的几家机构如OpenAI、Anthropic 和 Google 已经取得了令人瞩目的成果。然而针对中文环境下的内容生产需求,则有更多本土化优化措施被采纳以适应本地文化特色和社会习惯。具体来说: - 开发者们正在探索如何更好地融合传统文化元素进入生成流程之中; - 同时也注重提升对于方言表达的理解水平以便服务于更加广泛的受众群体; - 此外还积极引入外部API接口扩大应用场景范围比如直播带货、在线教育等领域[^3]。 ```python # Python代码示例用于展示可能涉及的一些关键技术组件调用方式 from huggingface_hub import from_pretrained model = from_pretrained('mixed yuan text-to-video model') output_video = model.generate(input_text="一段美丽的日出景象") ```
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

CSDN资讯

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值