DeepSeek V3：DeepSeek 开源的最新多模态 AI 模型，编程能力超越Claude，生成速度提升至 60 TPS

本文链接：https://blog.csdn.net/qq_19841021/article/details/144797644

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发非常感兴趣，我会每日跟你分享最新的 AI 资讯和开源应用，也会不定期分享自己的想法和开源实例，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

原文链接：https://mp.weixin.qq.com/s/PH7FX3-m1SKVT-XDTzAh5g

🚀 快速阅读

功能：DeepSeek V3 具备自然语言处理、代码生成和多语言编程能力。
技术：采用混合专家架构，支持高效的多模态数据处理和长文本处理。
性能：在多个基准测试中表现优异，尤其在代码和数学领域。

正文（附运行示例）

DeepSeek V3 是什么

公众号: 蚝油菜花 - DeepSeek-V3

DeepSeek V3 是深度求索公司开源的最新版 AI 模型，采用混合专家（MoE）架构，包含 256 个专家，每次选取前 8 个专家参与计算。该模型在多语言编程能力上表现突出，超越了 Claude 3.5 Sonnet V2 等竞争对手。

公众号: 蚝油菜花 - DeepSeek-V3

DeepSeek V3 的生成速度从 20 TPS 提升至 60 TPS，处理多模态数据和长文本时表现优异。该模型已在 Hugging Face 上开源，方便开发者使用和集成。

DeepSeek V3 的主要功能

自然语言查询处理：能理解和处理用户的自然语言查询，提供快速准确的回答。
代码生成能力：帮助开发者快速生成代码片段，提高开发效率。
多语言处理能力：在多语言编程测评中表现优异，超越多个竞争对手。
API和Web服务：提供API和Web服务，方便用户在不同场景下集成和使用。

DeepSeek V3 的技术原理

架构设计：采用混合专家（MoE）架构，包含 256 个专家，通过 sigmoid 路由方式动态选择前 8 个专家参与计算。
工作机制：分为计划、搜索、提取和丰富四个阶段，结合关键词搜索与神经搜索，精准定位和提取信息。
多模态能力：使用 OCRvl2 技术，能更好地保留图片中的文字、格式排版和公式。

如何运行 DeepSeek V3

DeepSeek V3 已在 Hugging Face 上开源，开发者可以通过以下步骤快速集成和使用：

from transformers import AutoModelForCausalLM, AutoTokenizer

# 加载模型和分词器
model = AutoModelForCausalLM.from_pretrained("deepseek-ai/DeepSeek-V3")
tokenizer = AutoTokenizer.from_pretrained("deepseek-ai/DeepSeek-V3")

# 输入文本
input_text = "生成一段Python代码，实现一个简单的计算器。"

# 生成代码
inputs = tokenizer(input_text, return_tensors="pt")
outputs = model.generate(**inputs)

# 输出结果
print(tokenizer.decode(outputs[0], skip_special_tokens=True))