腾讯混元文生图模型HunyuanDiT部署体验

最近,腾讯混元文生图模型HunyuanDiT 架构升级,并免费开源了。他采用的神经网络架构和Sara一样都是Diffusion Transformer,参数量已经达到15亿。官方测评效果显示超过目前开源的Stable Diffusion。试用下来效果比较令人惊喜。

建议硬件要求(模型推理):
INT4 : RTX30901或 RTX40901,显存24GB,内存32GB,系统盘200GB
如果你没有 GPU 硬件的话,也可以在 CPU 上进行推理,但是推理速度会更慢。
模型微调硬件要求更高。一般不建议个人用户环境使用

本文在Docker环境下部署,如需直接部署请参考官网相关说明。

环境准备

模型准备
  • 第一步:模型下载

git clone https://huggingface.co/Tencent-Hunyuan/HunyuanDiT

下载地址: https://huggingface.co/Tencent-Hunyuan/HunyuanDiT
模型名称: Tencent-Hunyuan/HunyuanDiT
本文统一放在模型存档目录:/u01/workspace/models/HunyuanDiT

  • 第二步:由于在启动时需要通过huggingface加载openai/clip-vit-large-patch14-336视觉模型,正常情况下不通过科学上网这里基本无法自动下载到该模型。也需要请提前下载好该模型

git clone https://huggingface.co/openai/clip-vit-large-patch14-336
保存位置:/u01/workspace/models/clip-vit-large-patch14-336
修改第一步下载模型中的配置文件:/u01/workspace/models/HunyuanDiT/dialoggen/config.json中mm_vision_tower 的值改为刚下载clip-vit-large-patch14-336的绝对路径下。
“mm_vision_tower”: “/u01/workspace/models/clip-vit-large-patch14-336”,, 如下图所示:
image.png

下载源码
git clone https://github.com/Tencent/HunyuanDiT; 
cd HunyuanDiT
Dockerfile样例

注意 COPY HunyuanDiT/ /app/HunyuanDiT/ 这行执行需要根据世纪HunyuanDiT源码下载存放位置。

FROM pytorch/pytorch:2.2.1-cuda12.1-cudnn8-runtime
ARG DEBIAN_FRONTEND=noninteractive


WORKDIR /app

RUN pip install --user nvidia-pyindex

RUN pip config set global.index-url http://mirrors.aliyun.com/pypi/simple
RUN pip config set install.trusted-host mirrors.aliyun.com

RUN mkdir -p /u01/workspace/models/

COPY HunyuanDiT/ /app/HunyuanDiT/
WORKDIR /app/HunyuanDiT

RUN python -m pip install --verbose --use-pep517 -r requirements.txt
RUN pip install bitsandbytes huggingface_hub==0.23.0


EXPOSE 8000 8051

CMD [ "python","app/hydit_app.py"]

本文采用基础镜像pytorch/pytorch:2.2.1-cuda12.1-cudnn8-runtime 自带的 pip 相关版本与源码中的部分版本冲突(torchvision,protobuf,nvidia-pyindex),所以,下载原名后需要修改requirements.txt文件:

#--extra-index-url https://pypi.ngc.nvidia.com
timm==0.9.5
diffusers==0.21.2
peft==0.10.0
#protobuf==3.19.0
#torchvision==0.14.1
transformers==4.37.2
accelerate==0.29.3
loguru==0.7.2
einops==0.7.0
sentencepiece==0.1.99
cuda-python==11.7.1
onnxruntime==1.12.1
onnx
#nvidia-pyindex==1.0.9
onnx-graphsurgeon==0.5.2
polygraphy==0.49.9
pandas==2.0.3
gradio==4.31.0

构建image
docker build -t qingcloudtech/hunyuandit:v1.0 .
运行docker
docker run -it --gpus all \
  -p 8501:8501 \
  -v /u01/workspace/models:/u01/workspace/models \
  qingcloudtech/hunyuandit:v1.0 \
  python app/hydit_app.py --model-root /u01/workspace/models/HunyuanDiT --no-enhance

注意:
–no-enhance :禁用增强模型,低显卡配置情况下请启用,否则会报显存错误

访问并验证

默认地址: http://127.0.0.1:443
image.png在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述


【Qinghub Studio 】更适合开发人员的低代码开源开发平台
【QingHub企业级应用统一部署】
【QingHub企业级应用开发管理】
QingHub** 演示】**
https://qingplus.cn

### 关于混元Dit和ComfyUI的相关信息 #### 混元Dit简介 混元Dit是一个专注于多模态数据处理的框架,能够实现从文本到像再到三维模型的转换。此框架提供了一系列便捷的功能来简化开发者的操作过程。 #### ComfyUI概述 ComfyUI是一款用于创建形化界面的应用程序接口工具集,旨在使开发者可以更轻松地构建用户友好的应用程序。最新版本已更新至支持标准化工作流程,并能兼容多种训练权重,包括t2i模块的权重以及Lora训练的不同版本[^2]。 #### 下载与安装指南 对于希望使用这两个平台的人来说,获取软件的第一步是从官方网站下载最新的稳定版压缩包文件。通常情况下,在项目的GitHub页面上能找到详细的安装说明文档链接。按照给定的操作指引完成环境搭建后即可开始探索其功能特性。 #### 配置方法 为了确保最佳性能表现,建议仔细阅读官方提供的配置手册。这其中包括但不限于设置必要的依赖库、调整参数选项等内容。特别是当涉及到特定硬件加速需求时(如GPU),合理的优化措施显得尤为重要。 #### 示例项目展示 项目提供了几个实用的快捷脚本以便用户迅速体验不同的应用场景: - `bash scripts/text_to_3d_demo.sh`:通过该命令可启动一个基于文本输入生成三维物体实例的过程[^1]; - `bash scripts/text_to_3d_fast_demo.sh`:这是一个更快捷的方式来进行相同类型的创作活动,适合追求效率的人群尝试; - `bash scripts/image_to_3d_demo.sh` 和 `bash scripts/image_to_3d_fast_demo.sh` 则分别对应着利用片作为源材料制作立体效果作品的标准模式与高效模式两种情况下的演示案例; 这些例子不仅有助于理解如何调用API函数,同时也展示了实际应用中的灵活性和多样性。 ```python import comfyui as cui def create_3d_model_from_text(text_input, output_path): model = cui.Model() result = model.generate_3d(text=text_input) result.save(output_path) create_3d_model_from_text("A beautiful castle", "./output/castle.obj") ```
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值