星海算力云:【腾讯混元】无需部署,一键云启动

在文生图模型技术日益成熟之际,仍有众多设计爱好者在Midjourney的咒语中苦练,却难以召唤出令人满意的图像。

设计界的专业术语、不甚准确的英文翻译,以及对中国古代建筑的一知半解,充斥着当前的文生图工具,这在很大程度上是由于国内众多团队依赖于翻译后的英文开源Stable Diffusion模型,或是仅基于有限的中文数据在特定场景进行微调(finetune)。这两种方法都面临着对中文理解的不足和缺乏通用性的问题。

为了解决这些难题,腾讯携其创新的中文原生文生图大模型隆重登场。

5月14日,腾讯宣布开源其混元文生图大模型,这标志着国内首个采用DiT(Dual-Path Transformers)架构的中文原生模型问世。该模型不仅具备中英文双语的深度理解与生成能力,更在古诗词、俚语、传统建筑、中华美食等富含中国特色的元素生成上展现出卓越的性能。

比如同样是含有“昆曲”、“狗不理包子”关键词的Prompt,对比不同对文生图模型,混元生成了最匹配对图片:

为了进一步降低了用户的使用门槛,解决几个Prompt搞不定一张图的难题,对比此前大多数文生图模型77个字符的输入,混元支持最多256个字符的输入,简直是文生图界的“Kimi”了。

"文生图也需DiT架构?"

混元文生图大模型的独特之处,根植于其底层技术架构的创新。在架构设计上,该模型采纳了DiT(Dual-Path Transformers)架构,不仅支持中英文双语输入及理解,更拥有高达15亿的参数量。

DiT架构,由Sora引领潮流,巧妙地融合了扩散模型与Transformer架构的长处,赋予了模型强大的视觉生成能力。这种架构的灵活性不仅限于文生图领域,更可扩展至视频制作和其他多模态视觉内容的生成,奠定了其作为未来视觉内容生成的基石。

据消息透露,腾讯混元团队坚信,基于Transformer架构的扩散模型(如DiT)拥有更广阔的可扩展性,有潜力成为下一代视觉生成技术的主流架构,甚至可能统一文生图、视频生成、3D内容生成等多模态视觉生成领域。

“Transformer架构展现出了惊人的扩展潜力,我们至今仍未触及其极限,这也是我们坚定选择Transformer架构的原因。”腾讯文生图项目的负责人芦清林如是说。

混元文生图大模型自2023年7月明确了基于Transformer架构的发展方向,并投入了长达半年的研发、优化与精细打磨。到了2024年2月,模型基础架构已从U-Net成功升级至Transformer,标志着其技术进步的又一里程碑。

部署流程

1、注册算力云平台:星海算力

https://gpu.spacehpc.com/

注意1:星海算力有欠费透支功能,大概可以免费体验3小时!

注意2:还可以联系星海客服人员免费领取50元券,差不多可免费体验1天!

2、选择32GB显存的显卡,这边推荐ad103(和4090性能差不多),或者推荐V100 32GB显存(性能差点)

3、选择镜像市场,点击更换镜像,选择腾讯混元镜像,最后点击立刻创建即可

4、创建成功等待4-5分钟,等虚拟机开启,开启成功后,打开应用,即可测试腾讯混元镜像

注意:腾讯混元模型比较大,所以开机以后点hunyuan跳转访问不到就稍等一下再访问

关于星海算力云

欢迎使用星海算力云,星海算力云由北京三轴空间科技有限公司开发,由非盈利组织龙游星海算力产业中心运营的高性能GPU算力云平台

星海团队长期致力于为图像渲染、科研高性能计算等提供服务。星海AI算力服务平台,获超高速增长,团队规模有100余人,服务了国内AI行业的许多一线团队。

### 如何在算力云平台部署和运行 Diffusion Policy 模型 #### 部署环境准备 为了确保能够在星海算力云平台上顺利复现与扩散策略(Diffusion Policy)相关的模型或实验,首先需要准备好相应的计资源以及软件依赖项。由于该平台是由北京三轴空间科技有限公司开发并由非盈利组织龙游星海产业中心负责运营的高性能GPU算力云平台[^2],因此可以利用其强大的硬件设施来加速训练过程。 对于具体的环境配置: - 创建一个新的虚拟机实例,并选择适合深度学习任务的GPU类型; - 安装必要的Python库和其他工具包,比如PyTorch、TensorFlow等框架; - 下载官方提供的预训练权重文件以及其他辅助材料; ```bash pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu113/ git clone https://github.com/YiZeng628/diffusion_policy.git cd diffusion_policy pip install -r requirements.txt ``` #### 数据集获取 根据已有的信息,实验所需的数据集可以通过访问指定网址下载:`https://diffusion-policy.cs.columbia.edu/data/experiments/<image|low_dim>/<task>/<method>/`[^1]。这里需要注意的是,在实际操作过程中应当替换掉URL中的占位符部分以指向具体的目标数据集合。 例如,如果想要获取图像处理领域下的某特定任务所使用的低维表示方法对应的数据,则应构建如下形式的实际链接地址: `https://diffusion-policy.cs.columbia.edu/data/experiments/image/task_name/methodology_type/` #### 运行脚本编写 完成上述准备工作之后,就可以着手编写用于启动训练流程的Shell脚本或是Python程序了。下面给出了一段简单的命令行调用样例作为参考: ```bash #!/bin/bash # 设置工作路径 WORK_DIR="/path/to/workdir" DATA_ROOT="https://diffusion-policy.cs.columbia.edu/data/experiments" # 获取数据集 wget ${DATA_ROOT}/<image|low_dim>/<task>/<method>/*.zip -P $WORK_DIR/data && unzip *.zip -d $WORK_DIR/data/ # 开始训练 python train_diffusion_model.py \ --data_dir=$WORK_DIR/data \ --output_dir=$WORK_DIR/output \ --config_file=configs/default.yaml ``` 请注意以上代码仅为示意用途,在真实环境中可能还需要调整参数选项以适应不同的应用场景需求。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值