Linux 快速部署DeepSeek-R1 蒸馏系列模型

歌刎

已于 2025-02-08 14:59:59 修改

阅读量3k

点赞数 24

分类专栏：模型部署 DeepSeek 文章标签： swift 人工智能 linux nlp 语言模型

于 2025-02-08 14:35:14 首次发布

本文链接：https://blog.csdn.net/MnivL/article/details/145515262

版权

DeepSeek 同时被 2 个专栏收录

18 篇文章

订阅专栏

模型部署

9 篇文章

订阅专栏

本文记录使用 ms-Swift 框架对 DeepSeekR1 蒸馏系列模型（7B、14B）在 A100（40GB）* 1 服务器上部署过程与测试结果。

框架：ms-swift

部署方法可选：vLLM、LMDeploy

加速方式：flash_attn

支持openai接口格式：是

模型：DeepSeek-R1-Distill-Qwen-7B、DeepSeek-R1-Distill-Qwen-14B

环境准备

本文基础环境如下：

----------------
x86_64
ubuntu 22.04 or centos 7
gpu: A100(40GB) * 1
python 3.10
cuda 12.2
----------------

本文默认已配置好以上 cuda、anaconda 环境，如未配置请先自行安装。

cuda
- 驱动安装详细教程：服务器显卡驱动与 CUDA 安装秘籍
- 显卡与驱动版本对应查询
  PCI devices (ucw.cz)
- 安装驱动
  Official Drivers | NVIDIA
- 安装 CUDA
  CUDA Toolkit Archive | NVIDIA Developer
anaconda
Ubuntu 与 CentOS 系统：Anaconda 在线及离线快速安装全教程-CSDN博客
pytorch
2025 深度学习必备：Torch 离线安装超详细指南，一文攻克版本适配与环境搭建难题-CSDN博客

依赖安装

创建虚拟环境

新建虚拟环境
- -n DeepSeekR1：指定要创建的虚拟环境的名称为 DeepSeekR1。
- python=3.10：指定虚拟环境中 Python 的版本为 3.10。
- -y：在创建环境过程中自动确认所有提示，无需手动输入 yes。
- -c：用于指定 conda 源。这里指定了清华大学的主源和自由源。
- --override-channels 临时禁用默认源，仅使用你指定的源

conda create -n DeepSeekR1 python=3.10 -y --override-channels -c https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main -c https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free

激活环境

创建完成后，你可以使用以下命令来激活并验证虚拟环境：
```
# 激活虚拟环境
conda activate DeepSeekR1

# 查看 Python 版本
python --version
```
如果输出的 Python 版本为 3.10，则说明虚拟环境创建成功。

模块安装

首先 pip 换源加速下载并安装依赖包

pip config set global.index-url https://mirrors.aliyun.com/pypi/simple/
pip install --upgrade pip

安装所需模块

直接复制，快速安装

也可以分开一个一个安

pip install modelscope==1.22.3
pip install openai==1.61.0
pip install tqdm==4.67.1
pip install "vllm>=0.5.1" -U
pip install "lmdeploy>=0.5,<0.6.5" -U --no-deps
pip install autoawq -U --no-deps
pip install auto_gptq optimum bitsandbytes -U
pip install ms-swift[all]
pip install timm -U
pip install deepspeed==0.14.* -U
pip install qwen_vl_utils decord librosa pyav icecream -U

检查安装是否成功
```
python -c "import torch; print(torch.cuda.is_available())"
```
输出True 这说明 GPU版本的pytorch安装成功

模型下载

使用 modelscope 中的 snapshot_download 函数下载模型，第一个参数为模型名称，参数 local_dir为模型的下载路径。

新建 model_download.py 文件并在其中输入以下内容，粘贴代码后记得保存文件。

from modelscope import snapshot_download

snapshot_download('deepseek-ai/DeepSeek-R1-Distill-Qwen-7B', local_dir='deepseek-ai/DeepSeek-R1-Distill-Qwen-7B', revision='master')
snapshot_download('deepseek-ai/DeepSeek-R1-Distill-Qwen-14B', local_dir='deepseek-ai/DeepSeek-R1-Distill-Qwen-14B', revision='master')

然后在终端中输入 python model_download.py 执行下载，这里需要耐心等待一段时间直到模型下载完成。

注意：记得修改 local_dir 为你的模型下载路径

部署测试

运行部署命令

CUDA_VISIBLE_DEVICES=1 swift deploy \
	--model /home/mnivl/apps/models/deepseek-ai/DeepSeek-R1-Distill-Qwen-14B \
	--max_model_len 8192 \
    --host 0.0.0.0 \
    --port 10040 \
	--attn_impl flash_attn \
	--infer_backend vllm

基础参数

--host: 默认为'0.0.0.0'.

--port: 默认为8000.

--api_key: 默认为None, 即不对请求进行api_key验证.

--ssl_keyfile: 默认为None.

--ssl_certfile: 默认为None.

--verbose: 是否对请求内容进行打印, 默认为True.

--log_interval: 对统计信息进行打印的间隔, 单位为秒. 默认为10. 如果设置为0, 表示不打印统计信息.

--attn_impl: [flash_attn,sdpa,eager,None] 注意力机制的实现方式

flash_attn 利用 Flash Attention 的高效特性，提升模型的推理速度，同时减少内存占用

更多参数：swift 命令行参数

--infer_backend {vllm,pt,lmdeploy} 推理框架选用

vllm

参考文档: OpenAI-Compatible Server — vLLM

--gpu_memory_utilization: 初始化vllm引擎EngineArgs的参数, 默认为0.9. 该参数只有在使用vllm时才生效. VLLM推理加速和部署可以查看VLLM推理加速与部署.

--tensor_parallel_size: 初始化vllm引擎EngineArgs的参数, 默认为1. 该参数只有在使用vllm时才生效.

--max_num_seqs: 初始化vllm引擎EngineArgs的参数, 默认为256. 该参数只有在使用vllm时才生效.

--max_model_len: 覆盖模型的max_model_len, 默认为None. 该参数只有在使用vllm时才生效.

--disable_custom_all_reduce: 是否禁用自定义的all-reduce kernel, 而回退到NCCL. 默认为True, 这与vLLM的默认值不同.

--enforce_eager: vllm使用pytorch eager模式还是建立cuda graph. 默认为False. 设置为True可以节约显存, 但会影响效率.

--limit_mm_per_prompt: 控制vllm使用多图, 默认为None. 例如传入--limit_mm_per_prompt '{"image": 10, "video": 5}'.

--vllm_enable_lora: 默认为False. 是否开启vllm对lora的支持. 具体可以查看VLLM & LoRA.

--vllm_max_lora_rank: 默认为16. vllm对于lora支持的参数

--cache-max-entry-count 控制kv缓存占用剩余显存的最大比例。默认的比例为0.8

最终显存占用 = 模型权重占用 + kv缓存占用

kv缓存占用 = (总显存 - 模型权重占用) * cache-max-entry-count

lmdeploy

参考文档: inference pipeline — lmdeploy

--tp: tensor并行, 用于初始化lmdeploy引擎的参数, 默认值为1.

--cache-max-entry-count 控制kv缓存占用剩余显存的最大比例。默认的比例为0.8

最终显存占用 = 模型权重占用 + kv缓存占用

kv缓存占用 = (总显存 - 模型权重占用) * cache-max-entry-count

--quant_policy: Key-Value Cache量化, 初始化lmdeploy引擎的参数, 默认值为0, 你可以设置为4, 8.

--vision_batch_size: 初始化lmdeploy引擎的参数, 默认值为1. 该参数只有在使用多模态模型时生效.

通过 curl 命令查看当前的模型列表

curl http://localhost:10040/v1/models

得到的返回值如下所示

{
    "data": [
        {
            "id": "DeepSeek-R1-Distill-Qwen-14B",
            "object": "model",
            "created": 1738832400,
            "owned_by": "swift"
        }
    ],
    "object": "list"
}

curl 对话测试

curl http://localhost:10040/v1/chat/completions \
    -H "Content-Type: application/json" \
    -d '{
    "model": "DeepSeek-R1-Distill-Qwen-14B",
    "messages": [
        {"role": "user", "content": "地心说为什么是真的"}
    ],
    "stream": true
}'

显存占用

实际占用 = 权重占用 +kv cache占用

并发测试

设备	模型	上下文	并发	循环次数	速率（tokens/s）	显存(GB)	请求超时个数
A100（40GB） * 1	DeepSeek-R1-Distill-Qwen-7B	2048	16	2	945.2	36.9a	0
A100（40GB） * 1	DeepSeek-R1-Distill-Qwen-7B	4096	16	2	744.6	37.2	0
A100（40GB） * 1	DeepSeek-R1-Distill-Qwen-7B	8192	16	2	885.0	37.2	0
A100（40GB） * 1	DeepSeek-R1-Distill-Qwen-7B	8192	32	3	1490.2	38.1	1
A100（40GB） * 1	DeepSeek-R1-Distill-Qwen-7B	8192	1	1	47.9	38.1	0

设备	模型	上下文	并发	循环次数	速率（tokens/s）	显存(GB)	请求超时个数	flash_attn 加速
A100（40GB） * 1	DeepSeek-R1-Distill-Qwen-14B	2048	16	2	586.8	37.6	0	False
A100（40GB） * 1	DeepSeek-R1-Distill-Qwen-14B	4096	16	2	370.5	38.0	17	False
A100（40GB） * 1	DeepSeek-R1-Distill-Qwen-14B	8192	16	2	285.3	38.1	24	False
A100（40GB） * 1	DeepSeek-R1-Distill-Qwen-14B	8192	1	1	38.3	38.1	0	False
A100（40GB） * 1	DeepSeek-R1-Distill-Qwen-14B	4096	16	2	454.9	38.6	15	True
A100（40GB） * 1	DeepSeek-R1-Distill-Qwen-14B	8192	16	2	242.5	38.6	23	True
A100（40GB） * 1	DeepSeek-R1-Distill-Qwen-14B	8192	1	1	48.4	37.9	0	True

请求 timeout=60s

过程可能出现的报错

模块安装错误

pip._vendor.urllib3.exceptions.ReadTimeoutError

packages/pip/vendor/urllib3/response.py", line 443, in _error_catcher raise ReadTimeoutError(self.pool, None, "Read timed out.")

pip._vendor.urllib3.exceptions.ReadTimeoutError: HTTPSConnectionPool(host='mirrors.aliyun.com',

pip install 包下载时, 会自动下载相关依赖，过程可能会很久，导致超时。

解决：直接重新执行pip install xxx 下载命令即可，pip cache 缓存会保留已经下好的依赖包

pip install deepspeed==0.14.* -U

Looking in indexes: https://mirrors.aliyun.com/pypi/simple/
Collecting deepspeed==0.14.*
  Using cached https://mirrors.aliyun.com/pypi/packages/85/b1/4f2e80eb76058122ba4a405feff1bf07af084ab5cf282aeecd19b0a3c46a/deepspeed-0.14.5.tar.gz (1.4 MB)
  Preparing metadata (setup.py) ... error
  error: subprocess-exited-with-error
  
  × python setup.py egg_info did not run successfully.
  │ exit code: 1
  ╰─> [23 lines of output]
      [2025-02-07 15:05:20,937] [INFO] [real_accelerator.py:203:get_accelerator] Setting ds_accelerator to cuda (auto detect)
      [2025-02-07 15:05:21,630] [INFO] [real_accelerator.py:203:get_accelerator] Setting ds_accelerator to cuda (auto detect)
      Traceback (most recent call last):
        File "<string>", line 2, in <module>
        File "<pip-setuptools-caller>", line 34, in <module>
        File "/tmp/pip-install-vmn2un79/deepspeed_dcca99b6cf834ce0aeba0165144d68f8/setup.py", line 39, in <module>
          from op_builder import get_default_compute_capabilities, OpBuilder
        File "/tmp/pip-install-vmn2un79/deepspeed_dcca99b6cf834ce0aeba0165144d68f8/op_builder/__init__.py", line 18, in <module>
          import deepspeed.ops.op_builder  # noqa: F401 # type: ignore
        File "/tmp/pip-install-vmn2un79/deepspeed_dcca99b6cf834ce0aeba0165144d68f8/deepspeed/__init__.py", line 25, in <module>
          from . import ops
        File "/tmp/pip-install-vmn2un79/deepspeed_dcca99b6cf834ce0aeba0165144d68f8/deepspeed/ops/__init__.py", line 15, in <module>
          from ..git_version_info import compatible_ops as __compatible_ops__
        File "/tmp/pip-install-vmn2un79/deepspeed_dcca99b6cf834ce0aeba0165144d68f8/deepspeed/git_version_info.py", line 29, in <module>
          op_compatible = builder.is_compatible()
        File "/tmp/pip-install-vmn2un79/deepspeed_dcca99b6cf834ce0aeba0165144d68f8/op_builder/fp_quantizer.py", line 35, in is_compatible
          sys_cuda_major, _ = installed_cuda_version()
        File "/tmp/pip-install-vmn2un79/deepspeed_dcca99b6cf834ce0aeba0165144d68f8/op_builder/builder.py", line 51, in installed_cuda_version
          raise MissingCUDAException("CUDA_HOME does not exist, unable to compile CUDA op(s)")
      op_builder.builder.MissingCUDAException: CUDA_HOME does not exist, unable to compile CUDA op(s)
       [WARNING]  async_io requires the dev libaio .so object and headers but these were not found.
       [WARNING]  async_io: please install the libaio-devel package with yum
       [WARNING]  If libaio is already installed (perhaps from source), try setting the CFLAGS and LDFLAGS environment variables to where it can be found.
      [end of output]
  
  note: This error originates from a subprocess, and is likely not a problem with pip.
error: metadata-generation-failed

× Encountered error while generating package metadata.
╰─> See above for output.

note: This is an issue with the package mentioned above, not pip.
hint: See above for details.

和cuda环境有关系，但是问题不太大

这里是编译安装失败，所以可以直接去下载编译好的 .whl 文件来安装
在这里找到对应版本的 deepspeed .whl 模块包安装即可

也可下载我下好的版本：
deepspeed-0.14.3-py3-none-any.whl

将whl文件上传到服务器后，执行

pip install deepspeed-0.14.3-py3-none-any.whl

程序运行报错

ValueError: Bfloat16 is only supported on GPUs with compute capability of at least 8.0

ValueError: Bfloat16 is only supported on GPUs with compute capability of at least 8.0. Your Tesla V100-PCIE-32GB GPU has compute capability 7.0. You can use float16 instead by explicitly setting thedtype flag in CLI, for example: --dtype=half.

数据类型不兼容：bfloat16（Brain Floating Point 16）是一种 16 位的浮点数数据类型，它在一些新的 GPU 架构上（计算能力至少为 8.0）被支持，用于加速深度学习训练和推理。而 Tesla V100 GPU 计算能力为 7.0，不支持 bfloat16。

解决办法

使用 float16 替代 bfloat16

错误信息中已经给出了提示，可以使用 float16 替代 bfloat16。具体做法是在命令行中显式设置 dtype 标志。

from vllm import LLM
....
# 初始化 vLLM 推理引擎
llm = LLM(model=model, ..., dtype="float16")

python -m vllm.entrypoints.openai.api_server \
  --model /home/mnivl/apps/models/deepseek-ai/DeepSeek-R1-Distill-Qwen-14B \
  .... \
  --dtype float16

ImportError: libGL.so.1

ImportError: libGL.so.1: cannot open shared object file: No such file or directory

不知道为什么swift在推理语言模型时，使用vllm方式推理时，会调用openGL图像库

所以，如果不想麻烦，可以直接在推理和部署的指令中去除vllm选项即可

去除 --infer_backend vllm

改为 --infer_backend lmdeploy

模型指标

DeepSeek-R1 训练技术论文链接： DeepSeek-R1/DeepSeek_R1.pdf at main · deepseek-ai/DeepSeek-R1 · GitHub

使用 DeepSeek-R1 生成的推理数据，微调了研究界广泛使用的几个密集模型。评估结果表明，蒸馏的较小密集模型在基准上表现非常出色。开源了基于 Qwen2.5 和 Llama3 系列的 1.5B、14B、8B、14B、32B 和 70B 。
魔搭社区

DeepSeek-R1 Models

Model	#Total Params	#Activated Params	Context Length	Download
DeepSeek-R1-Zero	671B	314B	128K	🤗 HuggingFace
DeepSeek-R1	671B	314B	128K	🤗 HuggingFace

DeepSeek-R1-Distill Models

Model	Base Model	Download
DeepSeek-R1-Distill-Qwen-1.5B	Qwen2.5-Math-1.5B	🤗 HuggingFace
DeepSeek-R1-Distill-Qwen-14B	Qwen2.5-Math-7B	🤗 HuggingFace
DeepSeek-R1-Distill-Llama-8B	Llama-3.1-8B	🤗 HuggingFace
DeepSeek-R1-Distill-Qwen-14B	Qwen2.5-14B	🤗 HuggingFace
DeepSeek-R1-Distill-Qwen-32B	Qwen2.5-32B	🤗 HuggingFace
DeepSeek-R1-Distill-Llama-70B	Llama-3.3-70B-Instruct	🤗 HuggingFace

ms-swift 特性

🍲 ms-swift是魔搭社区提供的大模型与多模态大模型微调部署框架，现已支持450+大模型与150+多模态大模型的训练（预训练、微调、人类对齐）、推理、评测、量化与部署。其中大模型包括：Qwen2.5、InternLM3、GLM4、Llama3.3、Mistral、DeepSeek-R1、Yi1.5、TeleChat2、Baichuan2、Gemma2等模型，多模态大模型包括：Qwen2.5-VL、Qwen2-Audio、Llama3.2-Vision、Llava、InternVL2.5、MiniCPM-V-2.6、GLM4v、Xcomposer2.5、Yi-VL、DeepSeek-VL2、Phi3.5-Vision、GOT-OCR2等模型。

🍔 除此之外，ms-swift汇集了最新的训练技术，包括LoRA、QLoRA、Llama-Pro、LongLoRA、GaLore、Q-GaLore、LoRA+、LISA、DoRA、FourierFt、ReFT、UnSloth、和Liger等。ms-swift支持使用vLLM和LMDeploy对推理、评测和部署模块进行加速，并支持使用GPTQ、AWQ、BNB等技术对大模型和多模态大模型进行量化。为了帮助研究者和开发者更轻松地微调和应用大模型，ms-swift还提供了基于Gradio的Web-UI界面及丰富的最佳实践。

为什么选择ms-swift？

🍎 模型类型：支持450+纯文本大模型、150+多模态大模型，All-to-All全模态模型的训练到部署全流程。
数据集类型：内置150+预训练、微调、人类对齐、多模态等各种类型的数据集，并支持自定义数据集。
硬件支持：CPU、RTX系列、T4/V100、A10/A100/H100、Ascend NPU等。
🍊 轻量训练：支持了LoRA、QLoRA、DoRA、LoRA+、ReFT、RS-LoRA、LLaMAPro、Adapter、GaLore、Q-Galore、LISA、UnSloth、Liger-Kernel等轻量微调方式。
分布式训练：支持分布式数据并行（DDP）、device_map简易模型并行、DeepSpeed ZeRO2 ZeRO3、FSDP等分布式训练技术。
量化训练：支持对BNB、AWQ、GPTQ、AQLM、HQQ、EETQ量化模型进行训练。
RLHF训练：支持纯文本大模型和多模态大模型的DPO、CPO、SimPO、ORPO、KTO、RM、PPO等人类对齐训练方法。
🍓 多模态训练：支持对图像、视频和语音不同模态模型进行训练，支持VQA、Caption、OCR、Grounding任务的训练。
界面训练：以界面的方式提供训练、推理、评测、量化的能力，完成大模型的全链路。
插件化与拓展：支持自定义模型和数据集拓展，支持对loss、metric、trainer、loss-scale、callback、optimizer等组件进行自定义。
🍉 工具箱能力：不仅提供大模型和多模态大模型的训练支持，还涵盖其推理、评测、量化和部署全流程。
推理加速：支持PyTorch、vLLM、LmDeploy推理加速引擎，并提供OpenAI接口，为推理、部署和评测模块提供加速。
模型评测：以EvalScope作为评测后端，支持100+评测数据集对纯文本和多模态模型进行评测。
模型量化：支持AWQ、GPTQ和BNB的量化导出，导出的模型支持使用vLLM/LmDeploy推理加速，并支持继续训练。

新功能

数据集模块重构。数据集加载速度提升2-20倍，encode速度提升2-4倍，支持streaming模式
- 移除了dataset_name机制，采用dataset_id、dataset_dir、dataset_path方式指定数据集
- 使用--dataset_num_proc支持多进程加速处理
- 使用--streaming支持流式加载hub端和本地数据集
- 支持--packing命令以获得更稳定的训练效率
- 指定--dataset <dataset_dir>支持本地加载开源数据集
对模型进行了重构：
- 移除了model_type机制，使用--model <model_id>/<model_path>来训练和推理
- 若是新模型，直接使用--model <model_id>/<model_path> --template xxx --model_type xxx，无需书写python脚本进行模型注册

本文档列举3.x版本和2.x版本的BreakChange。开发者在使用时应当注意这些不同。

参数差异

model_type的含义发生了变化。3.0版本只需要指定--model，model_type仅当模型为SWIFT不支持模型时才需要额外指定
sft_type更名为train_type
model_id_or_path更名为model
template_type更名为template
quantization_bit更名为quant_bits
check_model_is_latest更名为check_model
batch_size更名为per_device_train_batch_size，沿用了transformers的命名规则
eval_batch_size更名为per_device_eval_batch_size，沿用了transformers的命名规则
tuner_backend移除了swift选项
use_flash_attn更名为attn_impl
bnb_4bit_comp_dtype更名为bnb_4bit_compute_dtype
移除了train_dataset_sample和val_dataset_sample
dtype更名为torch_dtype，同时选项名称从bf16变更为标准的bfloat16，fp16变更为float16，fp32变更为float32
移除了eval_human选项
dataset选项移除了HF::使用方式，使用新增的--use_hf控制下载和上传
移除了do_sample选项，使用temperature进行控制
add_output_dir_suffix更名为add_version
移除了eval_token，使用api_key支持
target_modules(lora_target_modules)的ALL改为了all-linear，含义相同
deepspeed的配置更改为default-zero2->zero2, default-zero3->zero3
infer/deploy/export移除了--ckpt_dir参数，使用--model, --adapters进行控制

支持的模型

模型类型	模型标识
DeepSeek 系列	deepseek, deepseek_coder, deepseek_vl, deepseek_janus, deepseek_v2_5, deepseek_r1, deepseek_vl2, deepseek_janus_pro
Emu3 系列	emu3_gen, emu3_chat
Gemma 系列	gemma, paligemma
ChatGLM 系列	chatglm2
GLM 系列	glm4v, glm4, glm_edge_v
CodeGeeX 系列	codegeex4
LongWriter 系列	longwriter_llama
CogAgent 系列	cogagent_chat, cogagent_vqa
CogVLM 系列	cogvlm, cogvlm2, cogvlm2_video
Llama 系列	llama, llama3, llama3_2, llama3_2_vision, llama3_1_omni
Qwen 系列	qwen, qwen2_5, qwen2_5_math, qwen2_5_math_prm, qwen_vl, qwen_audio, qwen2_audio, qwen2_vl, qwen2_5_vl
Qvq 系列	qvq
Ovis 系列	ovis1_6, ovis1_6_llama3
Marco 系列	marco_o1
Got OCR 系列	got_ocr2
Idefics 系列	idefics3
InternLM 系列	internlm, internlm2, internlm2_reward
XComposer 系列	ixcomposer2, xcomposer2_5, xcomposer2_4khd
Florence 系列	florence
Phi 系列	phi3, phi4, phi3_vision
InternVL 系列	internvl, internvl_phi3, internvl2, internvl2_phi3, internvl2_5
Llava 系列	llava1_5_hf, llava_next_video_hf, llava1_6_mistral_hf, llava1_6_vicuna_hf, llava1_6_yi_hf, llama3_llava_next_hf, llava_next_qwen_hf, llava_onevision_hf, llava_llama3_1_hf, llava_llama3_hf, llava1_6_mistral, llava1_6_yi, llama3_llava_next, llava_next_qwen
Default 系列	default
ModelScope Agent 系列	modelscope_agent
Baichuan 系列	baichuan
Numina 系列	numina
Mistral 系列	mistral_nemo
Xverse 系列	xverse
Yuan 系列	yuan
Ziya 系列	ziya
Skywork 系列	skywork, skywork_o1
Bluelm 系列	bluelm
CodeFuse 系列	codefuse_codellama, codefuse
Zephyr 系列	zephyr
Sus 系列	sus
Orion 系列	orion
Telechat 系列	telechat, telechat2
Dbrx 系列	dbrx
Mengzi 系列	mengzi
C4AI 系列	c4ai
WizardLM 系列	wizardlm2, wizardlm2_moe
Atom 系列	atom
Aya 系列	aya
Megrez 系列	megrez, megrez_omni
Minicpm 系列	minicpm, minicpmv, minicpmv2_5, minicpmv2_6, minicpmo2_6
Minimax 系列	minimax, minimax_vl
Molmo 系列	molmo
Mplug Owl 系列	mplug_owl2, mplug_owl3, mplug_owl3_241101
Doc Owl 系列	doc_owl2
OpenBuddy 系列	openbuddy, openbuddy2
Pixtral 系列	pixtral
Valley 系列	valley
Yi 系列	yi_coder, yi_vl