23. AI-大语言模型-DeepSeek

真上帝的左手

已于 2025-02-20 17:06:26 修改

阅读量939

点赞数 17

分类专栏： 23. AI 文章标签：人工智能语言模型自然语言处理 ai

于 2025-02-16 12:17:45 首次发布

本文链接：https://blog.csdn.net/princemilo/article/details/145662352

版权

文章目录

前言
一、DeepSeek是什么
二、DeepSeek可以做什么
三、DeepSeek从入门到精通
四、DeepSeek 赋能职场应用

前言

DeepSeek‌

DeepSeek 是一家专注通用人工智能（AGI）的中国科技公司，主攻大模型研发与应用。
DeepSeek 的研发及开源，0->1，科研成果的重要一步。
DeepSeek 的应用，1->100，可以做什么，如何赋能职场应用。

一、DeepSeek是什么

1. 简介

DeepSeek 是国内一款开源的大模型，主打通用 AI 能力，类似于 OpenAI 的 GPT 系列，目标是打造国产的、强大的、开放的大语言模型。

DeepSeek 在今年春节期间迅速爆红，并凭借强劲的性能，获得了大量开发者的关注，它最大的特点是开源、使用成本低，并且性能不输 ChatGPT。

ai.com 这个域名之前跳转的是 ChatGPT，现在跳到 DeepSeek，可知 DeepSeek 的火爆程度。

DS太香了

2. 产品版本

DeepSeek 主要有以下几个大模型：

DeepSeek R1（最新最强大）
DeepSeek V3
DeepSeek Coder V2
DeepSeek VL
DeepSeek V2
DeepSeek Coder
DeepSeek Math
DeepSeek LLM

以 DeepSeek-R1 为例，满血版本为：671B，性能最强，也就是官网部署的版本。
还有几个蒸馏版本：

DS-R1版本

模型规格后面的数字代表模型的参数量，而 b 则是指 “billion” 的意思，也就是十亿，表示这个模型有多少亿个参数：

1.5b 有 15 亿个参数；

671b 是 6710 亿个参数。

参数量直接决定了一个模型的计算能力和硬件需求，一般来说：

参数越大：代表模型越聪明，对复杂问题的处理能力越强，但对算力和硬件的要求也越高。

参数越小：代表模型越轻量化，对算力和硬件的要求越低，适合资源受限的设备。

所以，一个模型的参数量越大，它能处理和生成的内容质量越复杂、越高，也更能满足我们的要求，不过也需要更多的硬件资源来支撑。

DeepSeek-R1 系列模型的规格划分主要是为了适应不同场景的需求，从小到大覆盖了轻量化应用到高算力推理的各种场景。在实际应用中，我们需要根据算力、成本、业务需求等综合因素来选择合适的模型。适合自己的，才是最好的！

参数规模与模型能力

参数规模（B = Billion/十亿）代表模型的复杂度和学习能力，参数越多，通常理解和生成能力越强。

1.5B - 14B：轻量级模型，适合基础任务（文本生成、简单问答）。
32B - 70B：中等规模，平衡性能与资源消耗，适合复杂任务（逻辑推理、代码生成）。

本地部署后跑的就是本地算力了，叠加知识库，可以实现内部的资料对话式查询，资料不上网，更加安全可靠。不同模型需要的硬件配置，以下可供参考：

1.5B：CPU最低4核，内存8GB+，硬盘3GB+存储空间，显卡非必需，若GPU加速可选4GB+显存，适合低资源设备部署等场景。
7B：CPU 8核以上，内存16GB+，硬盘8GB+，显卡8GB+显存，可用于本地开发测试等场景。
8B：硬件需求与7B相近略高，适合需更高精度的轻量级任务。
14B：CPU 12核以上，内存32GB+，硬盘15GB+，显卡16GB+显存，可用于企业级复杂任务等场景。
32B：CPU 16核以上，内存64GB+，硬盘30GB+，显卡24GB+显存，适合高精度专业领域任务等场景。
70B：CPU 32核以上，内存128GB+，硬盘70GB+，显卡需多卡并行，适合科研机构等进行高复杂度生成任务等场景。

3. 特征

DeepSeek 之所以能迅速崛起，主要是因为它在技术上有一些独特的优势。

DeepSeek 采用了 Mixture of Experts（MoE，混合专家模型），这一架构让它可以在计算资源相对有限的情况下，仍然保持高性能，实现了它对 OpenAI 的弯道超车。

MoE 的核心思想是：

不是所有参数都在每次推理时被激活，而是只有一部分专家（Experts）在工作，这样可以减少计算成本，同时提高模型的推理效率。

相比于 OpenAI 的 GPT-4，DeepSeek 的 MoE 版本可以用更少的计算量，获得接近 GPT-4 级别的性能。与OpenAI-o1的性能对比：

模型对比
DeepSeek 是国产大模型，那么，它和 GPT-4 的差距在哪里？

对比项	DeepSeek	GPT-4
是否开源	✅ 开源	❌ 闭源
中文优化	✅ 很强	✅ 强
代码能力	✅ 强	✅ 更强
推理速度	✅ 轻量级 MoE 优势	❌ 需要更大计算资源
本地部署	✅ 可以	❌ 不能
使用限制	✅ 自由可商用	❌ 需要 API 访问