如何评价deepseek上线的deepseek-V3模型？怎么使用？

最新推荐文章于 2025-04-14 11:06:36 发布

百态老人

最新推荐文章于 2025-04-14 11:06:36 发布

阅读量5.7k

点赞数 9

文章标签：学习

本文链接：https://blog.csdn.net/weixin_41429382/article/details/144775805

版权

DeepSeek-V3模型是深度求索公司最新推出的自研MoE（混合专家）模型，具有6710亿参数，激活参数为370亿，经过14.8万亿token的预训练。该模型在多项评测中表现出色，超越了Qwen2.5-72B和Llama-3.1-405B等开源模型，并与世界顶尖的闭源模型如GPT-4o和Claude-3.5-Sonnet相媲美。

性能评价

性能表现：DeepSeek-V3在知识类任务、长文本处理、代码生成、数学推理和中文能力等方面均展现出顶尖水平。特别是在算法代码和数学方面表现突出，生成速度提升至60 TPS，相比前代V2.5提升了三倍。
技术特点：该模型采用了MoE架构，通过sigmoid路由方式动态选择前8个专家参与计算，提高了处理复杂任务的效率。此外，模型支持4K上下文，默认支持8K，未来将扩展到128K上下文。
性价比：DeepSeek-V3在性能上接近GPT-4o和Claude-3.5-Sonnet，但价格更为亲民。API服务定价为每百万输入tokens 0.5元（缓存命中）/2元（缓存未命中），每百万输出tokens 8元。同时，官方还提供了长达45天的优惠价格体验期。

使用方法

在线体验：用户可以通过访问chat.deepseek.com 与最新版V3模型进行对话。
API服务：DeepSeek-V3的API服务已同步更新，用户无需改动接口配置即可使用。
本地部署：模型已开源，用户可以下载原生FP8权重，并使用BF16转换脚本进行本地部署。此外，SGLang、LMDeploy、TensorRT-LLM和MindIE等工具已支持V3模型推理。
多语言编程：DeepSeek-V3在多语言编程能力上取得了显著进步，用户可以在软件开发、自动化等领域应用该模型。