DeepSeek-V3-0324新模型来袭,推理能力超GPT-4.5,MindIE部署轻松上手!

DeepSeek V3 的新版本模型 DeepSeek-V3-0324 借鉴 DeepSeek-R1 中的强化学习技术,参数量只增加至 685B,推理能力却大幅提升,在数学、代码类任务上超过GPT-4.5!相较于第一代 V3,基准测试的准确率最高提升了近 20 % 20\% 20% 。新版本V3 还具有更强的中文写作和搜索能力。新模型采用 MIT License,允许用户利用模型输出、通过模型蒸馏等方式训练其他模型。

MindIE 支持 DeepSeek-V3-0324 部署推理,该模型已上线魔乐社区,欢迎广大开发者下载体验!

模型链接:https://modelers.cn/models/MindIE/DeepSeek-V3-0324

01 模型性能及特点

新版 V3 模型有以下几大亮点:

  1. 更强的推理能力:新版 V3 模型借鉴 DeepSeek-R1 模型训练过程中所使用的强化学习技术,大幅提高了在推理类任务上的表现水平,在数学、代码类相关评测集上取得了超过 GPT-4.5 的得分成绩。

  2. 更强的前端开发能力:在 HTML 等代码前端任务上,新版 V3 模型生成的代码可用性更高,视觉效果也更加美观、富有设计感。

  3. 中文写作升级:在中文写作任务方面,新版 V3 模型基于 R1 的写作水平进行了进一步优化,同时特别提升了中长篇文本创作的内容质量。

  4. 中文搜索能力优化:新版 V3 模型可以在联网搜索场景下,对于报告生成类指令输出内容更为详实准确、排版更加清晰美观的结果。

5.新版 V3 模型在工具调用、角色扮演、问答闲聊等方面也得到了一定幅度的能力提升。

接下来,手把手教你在魔乐社区下载和部署模型该模型

02 02 02 硬件要求

部署 DeepSeek-V3-0324 模型用 BF16 权重进行推理至少需要 4 台 Atlas 800IA2( 8 ∗ 64 G 8*64\mathrm{G} 864G )服务器,用 W8A8 量化权重进行推理则至少需要 2 台Atlas 800IA2 ( 8 ∗ 64 G \mathrm{8*64G} 864G

03 下载权重

3.1 FP8 原始权重下载

HuggingFace:https://huggingface.co/deepseek-ai/DeepSeek-V3-0324

Modelers:https://modelers.cn/models/Modelers_Park/DeepSeek-V3-0324 (享国内加速下载)

目前提供模型权重下载脚本,支持 HuggingFace 以及 Modelers 来源的模型下载。用法如下:

  • 鉴于 DeepSeek-V2、V3、R1、V3-0324 系列模型结构高度相似,模块化后组图代码差异较小。为提升代码复用率并降低冗余,四个模型的共享代码模块已统一整合至 DeepSeek-V2 文件夹中。
  • 以下引用的 atb_models 路径在 DeepSeek-V2 路径下。
git clone https://gitee.com/ascend/ModelZoo-PyTorch.git
cd ModelZoo-PyTorch/MindIE/LLM/DeepSeek/DeepSeek-V2/ 
  1. 确认 atb_models/build/weights_url.yaml 文件中对应 repo_id,当前已默认配置模型官方认可的 DeepSeek-V3 下载地址,如您需要使用 DeepSeek-V3-0324 或者有其他信任来源的 repo_id,可自行修改。

  2. 执行下载脚本 atb_models/build/download_weights.py:

python3 atb_models/build/download_weights.py
参数名含义
hub可选,str类型参数,hub来源,支持HuggingFace, ModelScope, Modelers
repo_id可选,str类型参数,仓库ID,默认从weight_url.yaml中读取
target_dir可选,str类型参数,默认放置在atb_models同级目录下

3.2 权重转换下载 (FP8 转 BF16)

NPU 侧权重转换,将 FP8 权重转换成 BF16。

注意:

  • DeepSeek 官方没有针对 DeepSeek-V3-0324 提供新的权重转换脚本,所以复用 DeepSeek-V2 的权重转换脚本。
  • 若用户使用上方脚本下载权重,则无需使用以下 git clone 命令,直接进入权重转换脚本目录。
git clone https://gitee.com/ascend/ModelZoo-PyTorch.git
cd ModelZoo-PyTorch/MindIE/LLM/DeepSeek/DeepSeek-V2/NPU_inference
python fp8_cast_bf16.py --input-fp8-hf-path {/path/to/DeepSeek-V3-0324} --output-bf16-hf-path {/path/to/DeepSeek-V3-0324-bf16}

目前npu 转换脚本不会自动复制 tokenizer 等文件,需要将原始权重的tokenizer.json, tokenizer_config.json 等文件复制到转换之后的路径下。

注意:

  • /path/to/DeepSeek-V3-0324 表示 DeepSeek-V3-0324 原始权重路径,/path/to/DeepSeek-V3-0324-bf16 表示权重转换后的新权重路径。
  • 由于模型权重较大,请确保您的磁盘有足够的空间放下所有权重,例如DeepSeek-V3 在转换前权重约为 640G 左右,在转换后权重约为 1.3T 左右。
  • 推理作业时,也请确保您的设备有足够的空间加载模型权重,并为推理计算预留空间。

您也可以通过 HuggingFace 等开源社区直接下载 BF16 模型权重:

HuggingFace:https://huggingface.co/unsloth/DeepSeek-V3-0324-BF16/

Modelers: https://modelers.cn/models/Modelers Park/DeepSeek-V3-0324-BF16

3.3 W8A8 量化权重生成和下载 (BF16 转 INT8)

目前支持:生成模型 w8a8 混合量化权重,使用 histogram 量化方式 (MLA:w8a8

量化,MOE:w8a8 dynamic pertoken 量化)。

详情请参考 DeepSeek 模型量化方法介绍:
https://gitee.com/ascend/msit/tree/br_noncom_MindStudio_8.0.0_POC_20251231/msmodelslim/example/DeepSeek。

注意:DeepSeek-V3 模型权重较大,量化权重生成时间较久,请耐心等待;具体时间与校准数据集大小成正比,10 条数据大概需花费 3 小时。

昇腾原生量化 W8A8 权重下载(动态量化)

你也可以通过 Modelers 开源社区直接下载昇腾原生量化 W8A8 模型权重。链接如下。

Deepseek-V3-0324-W8A8:https://modelers.cn/models/Modelers_Park/DeepSeek-V3-0324-w8a8

04 推理前置准备

  1. 修改模型文件夹属组为 1001 -HwHiAiUser 属组(容器为 Root 权限可忽视),执行权限为 750:
chown -R 1001:1001 {/path-to-weights/DeepSeek-V3-0324} chmod -R 750 {/path-to-weights/DeepSeek-V3-0324}  
  1. 修改权重目录下的 config.json 文件,将 model_type 更改为 deepseekv2(全小写且无空格)。
"model_type": "deepseekv2"  

注意:在本仓实现中,DeepSeek-V3-0324 目前沿用 DeepSeekV2 代码框架。

  1. 检查机器网络情况。
# 1.检查物理链接
for i in {0..7}; do hccn_tool -i \$i -lldp -g grep Ifname; done  
#2.检查链接情况
for i in {0..7}; do hccn_tool -i $i -link -g ; done
# 3.检查网络健康情况
for i in {0..7}; do hccn_tool -i $i -net_health -g ; done
# 4.查看侦测 ip 的配置是否正确
for i in {0..7}; do hccn_tool -i \$i -netdetect -g ; done  
# 5.查看网关是否配置正确
for i in {0..7}; do hccn_tool -i \$i -gateway -g ; done 
# 6.检查 NPU 底层tls 校验行为一致性,建议统一全部设置为 0,避免 hccl报错
for i in {0..7}; do hccn_tool -i \$i -tls -g ; done grep switch  
# 7.NPU 底层 tls 校验行为置 0 操作,建议统一全部设置为 0,避免 hccl 报错
for i in {0..7};do hccn_tool -i \$i -tls -s enable 0;done  
  1. 获取每张卡的 ip 地址
for i in {0..7};do hccn_tool -i \$i -ip -g; done  
  1. 需要用户自行创建 rank_table_file.json,参考如下格式配置以下是一个双机用例,用户自行添加 ip,补全 device:
{
   "server_count": "2",
   "server_list": [
      {
         "device": [
            {
               "device_id": "0",
               "device_ip": "...",
               "rank_id": "0"
            },
            {
               "device_id": "1",
               "device_ip": "...",
               "rank_id": "1"
            },
            ...
            {
               "device_id": "7",
               "device_ip": "...",
               "rank_id": "7"
            },
         ],
         "server_id": "...",
         "container_ip": "..."
      },
      {
         "device": [
            {
               "device_id": "0",
               "device_ip": "...",
               "rank_id": "8"
            },
            {
               "device_id": "1",
               "device_ip": "...",
               "rank_id": "9"
            },
            ...
            {
               "device_id": "7",
               "device_ip": "...",
               "rank_id": "15"
            },
         ],
         "server_id": "...",
         "container_ip": "..."
      },
   ],
   "status": "completed",
   "version": "1.0"
}
参数名说明
server_count 总节点数
server_listserver_list 中第一个 server 为主节点
device_id当前卡的本机编号,取值范围[0,本机卡数)
device_ip当前卡的ip地址,可通过hccn_tool命令获取
rank_id当前卡的全局编号,取值范围[0,总卡数)
server_id当前节点的ip地址
container_ip容器ip地址(服务化部署时需要),若无特殊配置,则与 server_id相同
  1. rank_table_file.json 配置完成后,需要执行命令修改权限为 640
chmod -R 640 {rank_table_file.json路径}  

05 加载镜像

需要使用 mindie:2.0.T3 及其后版本。

前往昇腾社区/开发资源或者魔乐社区/更多下载适配,下载镜像前需要申请权限,耐心等待权限申请通过后,根据指南下载对应镜像文件。

昇腾社区:
https://www.hiascend.com/developer/ascendhub/detail/af85b724a7e5469ebd7ea13c34
39d48f

魔乐社区:https://modelers.cn/images/MindIE/tags

  • DeepSeek-V3 的镜像版本:2.0.T3-800I-A2-py311-openeuler24.03-lts
  • 镜像加载后的名称:swr.cn-south-
    1.myhuaweicloud.com/ascendhub/mindie:2.0.T3-800I-A2-py311-openeuler24.03-
    lts

完成之后,请使用 docker images 命令确认查找具体镜像名称与标签。

各组件版本配套如下:

组件版本
MindIE2.0.T3
CANN8.0.T63
Pytorch6.0.T700
MindStudioMsit: br_noncom_MindStudio_8.0.0_POC_20251231分支
AscendHDK24.1.0

06 容器启动

1. 启动容器

执行以下命令启动容器(参考):

docker run -itd --privileged  --name= {容器名称}  --net=host \
   --shm-size 500g \
   --device=/dev/davinci0 \
   --device=/dev/davinci1 \
   --device=/dev/davinci2 \
   --device=/dev/davinci3 \
   --device=/dev/davinci4 \
   --device=/dev/davinci5 \
   --device=/dev/davinci6 \
   --device=/dev/davinci7 \
   --device=/dev/davinci_manager \
   --device=/dev/hisi_hdc \
   --device /dev/devmm_svm \
   -v /usr/local/Ascend/driver:/usr/local/Ascend/driver \
   -v /usr/local/Ascend/firmware:/usr/local/Ascend/firmware \
   -v /usr/local/sbin/npu-smi:/usr/local/sbin/npu-smi \
   -v /usr/local/sbin:/usr/local/sbin \
   -v /etc/hccn.conf:/etc/hccn.conf \
   -v  {/权重路径:/权重路径}  \
   -v  {/rank_table_file.json路径:/rank_table_file.json路径}  \
    {swr.cn-south-1.myhuaweicloud.com/ascendhub/mindie:1.0.0-XXX-800I-A2-arm64-py3.11(根据加载的镜像名称修改)}  \
   bash

2. 进入容器

执行以下命令进入容器(参考):

docker exec -it {容器名称} bash

3. 设置基础环境变量

source /usr/local/Ascend/ascend-toolkit/set_env.sh source /usr/local/Ascend/nnal/atb/set_env.sh 
ource /usr/local/Ascend/atb-models/set_env.sh 
source /usr/local/Ascend/mindie/set_env.sh  

4. 开启通信环境变量

export ATB_LLM_HCCL_ENABLE=1
export ATB_LLM_COMM_BACKEND="hccl"
export HCCL_CONNECT_TIMEOUT=7200 # 该环境变量需要配置为整数,取值范围[120,7200],单位s
双机:
export WORLD_SIZE=16
四机:
export WORLD_SIZE=32
export HCCL_EXEC_TIMEOUT=0

07 纯模型推理

【使用场景】使用相同输入长度和相同输出长度,构造多 Batch 去测试纯模型性能

7.1 精度测试

  1. 进入 modeltest 路径

cd /usr/local/Ascend/atb-models/tests/modeltest/

  1. 运行测试脚本
  1. 主副节点分别先清理残余进程:

    pkill -9 -f 'mindie|python'

  2. 需在所有机器上同时执行:

bash run.sh pa_[data_type] [dataset] ([shots]) [batch_size] [model_name] ([is_chat_model]) [weight_dir] [rank_table_file] [world_size] [node_num] [rank_id_start] [master_address] ([parallel_params])

参数说明:

  • data_type:为数据类型,根据权重目录下 config.json 的 data_type 选择 bf16或者 fp16,例如:pa_bf16。
  • dataset:可选 full_BoolQ、full_CEval 等,相关数据集可至魔乐社区 MindIE 下载,(下载之前,需要申请加入组织,下载之后拷贝到/usr/local/Ascend/atb-models/tests/modeltest/路径下)CEval 与 MMLU 等数据集需要设置 shots(通常设为 5)。
  • batch_size:为 batch 数。
  • model_name:为 deepseekv2。
  • is_chat_model:为是否支持对话模式,若传入此参数,则进入对话模式。
  • weight_dir:为模型权重路径。
  • rank_table_file:为“前置准备”中配置的 rank_table_file.json 路径。
  • world_size:为总卡数。
  • node_num:为当前节点编号,即 rank_table_file.json 的 server_list 中顺序确定。
  • rank_id_start:为当前节点起始卡号,即 rank_table_file.json 中当前节点第一张卡的 rank_id,Atlas 800I-A2 双机场景下,主节点为 0,副节点为 8。
  • master_address:为主节点 ip 地址,即 rank_table_file.json 的 server_list 中第一个节点的 ip。
  • parallel_params: 接受一组输入,格式为
    [dp,tp,moe_tp,moe_ep,pp,microbatch_size],如[8,1,8,-1,-1,-1]

测试脚本运行如下,以双机为例:

样例 -CEval 带 shot

主节点

bash run.sh pa_bf16 full_CEval 5 1 deepseekv2 {/path/to/weights/DeepSeek-V3-0324} {/path/to/xxx/ranktable.json} 16 2 0 {主节点IP}
# 0 代表从0号卡开始推理,之后的机器依次从8,16,24。

副节点

bash run.sh pa_bf16 full_CEval 5 1 deepseekv2 {/path/to/weights/DeepSeek-V3-0324} {/path/to/xxx/ranktable.json} 16 2 8 {主节点IP}
# 0 代表从0号卡开始推理,之后的机器依次从8,16,24。

样例 -GSM8K 不带 shot

主节点

bash run.sh pa_bf16 full_GSM8K 8 deepseekv2 {/path/to/weights/DeepSeek-V3-0324} {/path/to/xxx/ranktable.json} 16 2 0 {主节点IP}
# 0 代表从0号卡开始推理,之后的机器依次从8,16,24。

副节点

bash run.sh pa_bf16 full_GSM8K 8 deepseekv2 {/path/to/weights/DeepSeek-V3- 0324} {/path/to/xxx/ranktable.json} 16 2 8 {主节点 IP}  
# 0 代表从 0 号卡开始推理,之后的机器依次从 8,16,24。 

7.2 性能测试

  1. 进入 modeltest 路径:

    cd /usr/local/Ascend/atb-models/tests/modeltest/

  2. 主副节点分别先清理残余进程:

    pkill -9 -f 'mindie|python'

  3. 需在所有机器上同时执行:

bash run.sh pa_[data_type] performance [case_pair] [batch_size] ([prefill_batch_size]) [model_name] ([is_chat_model]) [weight_dir] [rank_table_file] [world_size] [node_num] [rank_id_start] [master_address] ([parallel_params]) 

参数说明:

  • data_type:为数据类型,根据权重目录下 config.json 的 data_type 选择 bf1或者 fp16,例如:pa_bf16。
  • case_pair:[最大输入长度,最大输出长度]。
  • batch_size:为 batch 数。
  • prefill_batch_size:为可选参数,设置后会固定 prefill 的 batch size。
  • model_name:为 deepseekv2。
  • is_chat_model:为是否支持对话模式,若传入此参数,则进入对话模式。
  • weight_dir:为模型权重路径。
  • rank_table_file:为“前置准备”中配置的 rank_table_file.json 路径。
  • world_size:为总卡数。
  • node_num:为当前节点编号,即 rank_table_file.json 的
    server_list 中顺序确定。
    rank_id_start:为当前节点起始卡号,即 rank_table_file.json 中当前节点第一张卡的 rank_id,Atlas 800I-A2 双机场景下,主节点为 0,副节点为 8。
  • master_address:为主节点 ip 地址,即 rank_table_file.json 的 server_list 中第一个节点的 ip。
  • parallel_params: 接受一组输入,格式为
    [dp,tp,moe_tp,moe_ep,pp,microbatch_size],如[8,1,8,-1,-1,-1]

测试脚本运行如下,以双机为例:

主节点

bash run.sh pa_bf16 performance [[256,256]] 1 deepseekv2  
{/path/to/weights/DeepSeek-V3-0324} {/path/to/xxx/ranktable.json} 16 2 0 {主节点IP}  
# 0 代表从 0 号卡开始推理,之后的机器依次从 8,16,24。 

副节点

bash run.sh pa_bf16 performance [[256,256]] 1 deepseekv2  
{/path/to/weights/DeepSeek-V3-0324} {/path/to/xxx/ranktable.json} 16 2 8 {主节点IP}  
# 0 代表从 0 号卡开始推理,之后的机器依次从 8,16,24。 

08 服务化推理

【使用场景】对标真实客户上线场景,使用不同并发、不同发送频率、不同输入长度和输出长度分布,去测试服务化性能

1. 配置服务化环境变量

变量含义:expandable_segments-使能内存池扩展段功能,即虚拟内存特性。

export PYTORCH_NPU_ALLOC_CONF $=$ expandable_segments:True

服务化需要 rank_table_file.json 中配置 container_ip 字段。
所有机器的配置应该保持一致,除了环境变量的 MIES_CONTAINER_IP 为本机 ip 地址。

export MIES_CONTAINER_IP={容器ip地址}
export RANKTABLEFILE={rank_table_file.json路径}

2. 修改服务化参数

cd /usr/local/Ascend/mindie/latest/mindie-service/ 
vim conf/config.json

修改以下参数

"httpsEnabled" : false, # 如果网络环境不安全,不开启HTTPS通信,即“httpsEnabled”=“false”时,会存在较高的网络安全风险
...
"multiNodesInferEnabled" : true, # 开启多机推理
...
# 若不需要安全认证,则将以下两个参数设为false
"interCommTLSEnabled" : false,
"interNodeTLSEnabled" : false,
...
"npudeviceIds" : [[0,1,2,3,4,5,6,7]],
...
"modelName" : "DeepSeek-V3" # 不影响服务化拉起
"modelWeightPath" : "权重路径",
"worldSize":8,

Example:仅供参考,请根据实际情况修改

{
    "Version" : "1.0.0",
    "LogConfig" :
    {
        "logLevel" : "Info",
        "logFileSize" : 20,
        "logFileNum" : 20,
        "logPath" : "logs/mindie-server.log"
    },

    "ServerConfig" :
    {
        "ipAddress" : "改成主节点IP",
        "managementIpAddress" : "改成主节点IP",
        "port" : 1025,
        "managementPort" : 1026,
        "metricsPort" : 1027,
        "allowAllZeroIpListening" : false,
        "maxLinkNum" : 1000, //如果是4机,建议300
        "httpsEnabled" : false,
        "fullTextEnabled" : false,
        "tlsCaPath" : "security/ca/",
        "tlsCaFile" : ["ca.pem"],
        "tlsCert" : "security/certs/server.pem",
        "tlsPk" : "security/keys/server.key.pem",
        "tlsPkPwd" : "security/pass/key_pwd.txt",
        "tlsCrlPath" : "security/certs/",
        "tlsCrlFiles" : ["server_crl.pem"],
        "managementTlsCaFile" : ["management_ca.pem"],
        "managementTlsCert" : "security/certs/management/server.pem",
        "managementTlsPk" : "security/keys/management/server.key.pem",
        "managementTlsPkPwd" : "security/pass/management/key_pwd.txt",
        "managementTlsCrlPath" : "security/management/certs/",
        "managementTlsCrlFiles" : ["server_crl.pem"],
        "kmcKsfMaster" : "tools/pmt/master/ksfa",
        "kmcKsfStandby" : "tools/pmt/standby/ksfb",
        "inferMode" : "standard",
        "interCommTLSEnabled" : false,
        "interCommPort" : 1121,
        "interCommTlsCaPath" : "security/grpc/ca/",
        "interCommTlsCaFiles" : ["ca.pem"],
        "interCommTlsCert" : "security/grpc/certs/server.pem",
        "interCommPk" : "security/grpc/keys/server.key.pem",
        "interCommPkPwd" : "security/grpc/pass/key_pwd.txt",
        "interCommTlsCrlPath" : "security/grpc/certs/",
        "interCommTlsCrlFiles" : ["server_crl.pem"],
        "openAiSupport" : "vllm"
    },

    "BackendConfig" : {
        "backendName" : "mindieservice_llm_engine",
        "modelInstanceNumber" : 1,
        "npuDeviceIds" : [[0,1,2,3,4,5,6,7]],
        "tokenizerProcessNumber" : 8,
        "multiNodesInferEnabled" : true,
        "multiNodesInferPort" : 1120,
        "interNodeTLSEnabled" : false,
        "interNodeTlsCaPath" : "security/grpc/ca/",
        "interNodeTlsCaFiles" : ["ca.pem"],
        "interNodeTlsCert" : "security/grpc/certs/server.pem",
        "interNodeTlsPk" : "security/grpc/keys/server.key.pem",
        "interNodeTlsPkPwd" : "security/grpc/pass/mindie_server_key_pwd.txt",
        "interNodeTlsCrlPath" : "security/grpc/certs/",
        "interNodeTlsCrlFiles" : ["server_crl.pem"],
        "interNodeKmcKsfMaster" : "tools/pmt/master/ksfa",
        "interNodeKmcKsfStandby" : "tools/pmt/standby/ksfb",
        "ModelDeployConfig" :
        {
            "maxSeqLen" : 10000,
            "maxInputTokenLen" : 2048,
            "truncation" : true,
            "ModelConfig" : [
                {
                    "modelInstanceType" : "Standard",
                    "modelName" : "DeepSeek-V3",
                    "modelWeightPath" : "/home/data/dsv3_base_step178000",
                    "worldSize" : 8,
                    "cpuMemSize" : 5,
                    "npuMemSize" : -1,
                    "backendType" : "atb",
                    "trustRemoteCode" : false
                }
            ]
        },

        "ScheduleConfig" :
        {
            "templateType" : "Standard",
            "templateName" : "Standard_LLM",
            "cacheBlockSize" : 128,

            "maxPrefillBatchSize" : 8,
            "maxPrefillTokens" : 2048,
            "prefillTimeMsPerReq" : 150,
            "prefillPolicyType" : 0,

            "decodeTimeMsPerReq" : 50,
            "decodePolicyType" : 0,

            "maxBatchSize" : 8,
            "maxIterTimes" : 1024,
            "maxPreemptCount" : 0,
            "supportSelectBatch" : false,
            "maxQueueDelayMicroseconds" : 5000
        }
    }
}

3. 拉起服务化

# 以下命令需在所有机器上同时执行
# 解决权重加载过慢问题
export OMP_NUM_THREADS=1
# 设置显存比
export NPU_MEMORY_FRACTION=0.95
# 拉起服务化
cd /usr/local/Ascend/mindie/latest/mindie-service/
./bin/mindieservice_daemon

执行命令后,首先会打印本次启动所用的所有参数,然后直到出现以下输出:

Daemon start success!

则认为服务成功启动。

4. 另起客户端

进入相同容器,向服务端发送请求。

更多信息可参考官网信息:MindIE Service
https://www.hiascend.com/document/detail/zh/mindie/100/mindieservice/servicedev/mindie_service0285.html

精度化测试样例

需要开启确定性计算环境变量。

export LCCL_DETERMINISTIC=1
export HCCL_DETERMINISTIC=true
export ATB_MATMUL_SHUFFLE_K_ENABLE=0
  • 并发数需设置为 1,确保模型推理时是 1batch 输入,这样才可以和纯模型比对精度。
  • 使用 MMLU 比对精度时,MaxOutputLen 应该设为 20,MindIE Server 的config.json 文件中 maxSeqLen 需要设置为 3600,该数据集中有约为 1.4w 条数据,推理耗时会比较长。
benchmark \
  --DatasetPath "/数据集路径/MMLU" \
  --DatasetType mmlu \
  --ModelName DeepSeek-V3 \
  --ModelPath "/模型权重路径/DeepSeek-V3-0324" \
  --TestType client \
  --Http https://{ipAddress}:{port} \
  --ManagementHttp https://{managementIpAddress}:{managementPort} \
  --Concurrency 1 \
  --MaxOutputLen 20 \
  --TaskKind stream \
  --Tokenizer True \
  --TestAccuracy True

ModelName,ModelPath 需要与 mindie-service 里的 config.json 里的一致,master_ip设置为主节点机器的 ip。样例仅供参考,请根据实际情况调整参数。

更多常见问题和解答,请参考:https://modelers.cn/models/MindIE/DeepSeek-V3-0324/blob/main/README.md

欢迎体验

欢迎大家下载体验 MindIE 版 DeepSeek-V3-0324,也欢迎广大开发者在模型评论区留言交流!

### 比较DeepSeek-V3而言,这款模型专注于多模态理解能力,在处理图像、视频以及文本等不同形式的数据上表现出色。它能够实现跨媒体的理解和生成任务,比如图文互生、视频描述等复杂场景下的应用[^1]。 而GPT-4.0作为大型预训练语言模型系列中的最成员之一,主要优势在于自然语言处理领域内的广泛适用性和卓越表现。其参数量庞大,这使得它可以更好地捕捉到细微的语言结构模式,并支持多种高级对话功能和服务开发[^2]。 #### 性能差异 在标准基准测试方面,虽然两者都达到了行业领先水平,但是针对特定应用场景会有不同的侧重方向。例如,在涉及大量中文语料的任务中,某些模型可能会显示出更好的适应性;而在其他国际化环境中,则可能另一方占据一定优势。 值得注意的是,由于技术更迭代迅速,具体版本之间的直接比较往往难以做到绝对公平公正。因此建议关注官方发布的评测报告和技术文档来获取最准确的信息。 ```python # 这里提供一段伪代码用于展示如何评估两个模型的表现 def evaluate_models(model_a, model_b): metrics = ["accuracy", "recall", "precision"] results = { 'Model A': {}, 'Model B': {} } for metric in metrics: score_a = calculate_score(model_a, metric) score_b = calculate_score(model_b, metric) results['Model A'][metric] = score_a results['Model B'][metric] = score_b return results ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值