腾讯开源混元DiT文生图模型,消费级单卡可推理

节前,我们组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。

针对大模型技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备面试攻略、面试常考点等热门话题进行了深入的讨论。

总结链接如下:

重磅消息!《大模型面试宝典》(2024版) 正式发布!

喜欢记得点赞、收藏、关注。更多技术交流&面经学习,可以文末加入我们。


混元DiT是一个基于Diffusion transformer的文本到图像生成模型,此模型具有中英文细粒度理解能力。

为了构建混元DiT,我们精心设计了Transformer结构、文本编码器和位置编码。我们构建了完整的数据管道,用于更新和评估数据,为模型优化迭代提供帮助。为了实现细粒度的文本理解,我们训练了多模态大语言模型来优化图像的文本描述。

最终,混元DiT能够与用户进行多轮对话,根据上下文生成并完善图像。

该模型具备如下优势

  • 中文元素理解:混元DiT提供双语生成能力,中国元素理解具有优势。

  • 长文本理解能力:混元DiT能分析和理解长篇文本中的信息并生成相应艺术作品。

  • 细粒度语义理解:混元DiT能捕捉文本中的细微之处,从而生成完美符合用户需要的图

  • 多轮对话文生图:混元DiT可以在多轮对话中通过与用户持续协作,精炼并完善的创意构想。

开源代码链接:

https://github.com/Tencent/HunyuanDiT

最佳实践

按照混元DiT文生图模型的模型页面,需要的计算显存如下:

在这里插入图片描述

环境配置和安装

  1. python 3.10及以上版本

  2. pytorch推荐2.0及以上版本

下载和部署

第一步:clone代码到本地

git clone https://github.com/tencent/HunyuanDiT
cd HunyuanDiT
# 安装魔搭镜像中缺少的依赖
pip install loguru==0.7.2

第二步:下载模型

# 使用git下载模型
git clone https://www.modelscope.cn/modelscope/HunyuanDiT.git
# 或者使用modelscope SDK下载模型
# from modelscope import snapshot_download
# model_dir = snapshot_download('modelscope/HunyuanDiT')

第三步:因为混元DiT依赖clip-vit-large-patch14-336,需要提前下载该模型到工作目录

# 下载clip模型
git clone https://www.modelscope.cn/AI-ModelScope/clip-vit-large-patch14-336.git ./openai/clip-vit-large-patch14-336

第四步:按照pr修改对应的代码

Pr地址:

https://github.com/Tencent/HunyuanDiT/pull/16

修改的文件如下:

第五步:运行推理接口

python sample_t2i.py --prompt "渔舟唱晚"

在HunyuanDiT/results/文件夹下得到结果:

显存占用:

中文prompt效果体验

小编用一些中文的成语,古诗等测试了该模型的效果,出图稳定,分辨率高,且效果不错,尤其是单张图多个实体上,依然保障了很好的出图质量。非常开心看到优秀的支持中文的文生图模型,魔搭社区未来期待与社区开发者同行,一起研究和推动基于DiT模型上如LoRA,控图等生态发展。

龟兔赛跑

守株待兔

三只羊驼坐在麻将桌上

一只红色的小狐狸和一只黑色的老鹰在森林中对话

醉后不知天在水,满船清梦压星河

技术交流&资料

技术要学会分享、交流,不建议闭门造车。一个人可以走的很快、一堆人可以走的更远。

成立了算法面试和技术交流群,相关资料、技术交流&答疑,均可加我们的交流群获取,群友已超过2000人,添加时最好的备注方式为:来源+兴趣方向,方便找到志同道合的朋友。

方式①、微信搜索公众号:机器学习社区,后台回复:加群
方式②、添加微信号:mlc2040,备注:来自CSDN + 技术交流

通俗易懂讲解大模型系列

### 关于混元文生视频大模型技术的概述 #### 技术背景与发展历程 随着深度学习算法的进步和计算资源的增长,基于文本生成视频的大规模预训练模型逐渐成为研究热点。这类模型通过大量无标注的数据集进行自我监督学习来获取通用特征表示能力,并在此基础上完成特定任务。 #### 混元文生视频大模型的特点 混元文生视频大模型是一种专注于将自然语言描述转换成高质量动态影像的技术方案。该类模型通常具备以下几个显著特性: - **强大的跨模态理解**:能够深入解析输入文字背后的语义信息并将其映射到视觉空间内; - **高效的图像合成机制**:采用先进的生成对抗网络(GANs)、变分自编码器(VAEs)或其他创新架构实现逼真的画面渲染效果; - **灵活的时间序列建模**:不仅限于静态图片创作,更擅长构建连贯流畅的动作片段或场景演变过程[^1]。 #### 最新进展 目前,在国际上领先的几家机构如OpenAI、Anthropic 和 Google 已经取得了令人瞩目的成果。然而针对中文环境下的内容生产需求,则有更多本土化优化措施被采纳以适应本地文化特色和社会习惯。具体来说: - 开发者们正在探索如何更好地融合传统文化元素进入生成流程之中; - 同时也注重提升对于方言表达的理解水平以便服务于更加广泛的受众群体; - 此外还积极引入外部API接口扩大应用场景范围比如直播带货、在线教育等领域[^3]。 ```python # Python代码示例用于展示可能涉及的一些关键技术组件调用方式 from huggingface_hub import from_pretrained model = from_pretrained('mixed yuan text-to-video model') output_video = model.generate(input_text="一段美丽的日出景象") ```
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值