前言
DeepSeek
- DeepSeek 是一家专注通用人工智能(AGI)的中国科技公司,主攻大模型研发与应用。
- DeepSeek 的研发及开源,0->1,科研成果的重要一步。
- DeepSeek 的应用,1->100,可以做什么,如何赋能职场应用。
一、DeepSeek是什么
1. 简介
DeepSeek 是国内一款开源的大模型,主打通用 AI 能力,类似于 OpenAI 的 GPT 系列,目标是打造国产的、强大的、开放的大语言模型。
DeepSeek 在今年春节期间迅速爆红,并凭借强劲的性能,获得了大量开发者的关注,它最大的特点是开源、使用成本低,并且性能不输 ChatGPT。
ai.com 这个域名之前跳转的是 ChatGPT,现在跳到 DeepSeek,可知 DeepSeek 的火爆程度。
2. 产品版本
- DeepSeek 主要有以下几个大模型:
- DeepSeek R1(最新最强大)
- DeepSeek V3
- DeepSeek Coder V2
- DeepSeek VL
- DeepSeek V2
- DeepSeek Coder
- DeepSeek Math
- DeepSeek LLM
以 DeepSeek-R1 为例,满血版本为:671B,性能最强,也就是官网部署的版本。
还有几个蒸馏版本:
模型规格后面的数字代表模型的参数量,而 b 则是指 “billion” 的意思,也就是十亿,表示这个模型有多少亿个参数:
- 1.5b 有 15 亿个参数;
- 671b 是 6710 亿个参数。
参数量直接决定了一个模型的计算能力和硬件需求,一般来说:
- 参数越大: 代表模型越聪明,对复杂问题的处理能力越强,但对算力和硬件的要求也越高。
- 参数越小: 代表模型越轻量化,对算力和硬件的要求越低,适合资源受限的设备。
所以,一个模型的参数量越大,它能处理和生成的内容质量越复杂、越高,也更能满足我们的要求,不过也需要更多的硬件资源来支撑。
DeepSeek-R1 系列模型的规格划分主要是为了适应不同场景的需求,从小到大覆盖了轻量化应用到高算力推理的各种场景。在实际应用中,我们需要根据算力、成本、业务需求等综合因素来选择合适的模型。适合自己的,才是最好的!
- 参数规模与模型能力
参数规模(B = Billion/十亿)代表模型的复杂度和学习能力,参数越多,通常理解和生成能力越强。
- 1.5B - 14B:轻量级模型,适合基础任务(文本生成、简单问答)。
- 32B - 70B:中等规模,平衡性能与资源消耗,适合复杂任务(逻辑推理、代码生成)。
本地部署后跑的就是本地算力了,叠加知识库,可以实现内部的资料对话式查询,资料不上网,更加安全可靠。不同模型需要的硬件配置,以下可供参考:
-
1.5B:CPU最低4核,内存8GB+,硬盘3GB+存储空间,显卡非必需,若GPU加速可选4GB+显存,适合低资源设备部署等场景。
-
7B:CPU 8核以上,内存16GB+,硬盘8GB+,显卡8GB+显存,可用于本地开发测试等场景。
-
8B:硬件需求与7B相近略高,适合需更高精度的轻量级任务。
-
14B:CPU 12核以上,内存32GB+,硬盘15GB+,显卡16GB+显存,可用于企业级复杂任务等场景。
-
32B:CPU 16核以上,内存64GB+,硬盘30GB+,显卡24GB+显存,适合高精度专业领域任务等场景。
-
70B:CPU 32核以上,内存128GB+,硬盘70GB+,显卡需多卡并行,适合科研机构等进行高复杂度生成任务等场景。
3. 特征
DeepSeek 之所以能迅速崛起,主要是因为它在技术上有一些独特的优势。
DeepSeek 采用了 Mixture of Experts(MoE,混合专家模型),这一架构让它可以在计算资源相对有限的情况下,仍然保持高性能,实现了它对 OpenAI 的弯道超车。
MoE 的核心思想是:
不是所有参数都在每次推理时被激活,而是只有一部分专家(Experts)在工作,这样可以减少计算成本,同时 提高模型的推理效率。
相比于 OpenAI 的 GPT-4,DeepSeek 的 MoE 版本可以用更少的计算量,获得接近 GPT-4 级别的性能。与OpenAI-o1的性能对比:
DeepSeek 是国产大模型,那么,它和 GPT-4 的差距在哪里?
对比项 | DeepSeek | GPT-4 |
---|---|---|
是否开源 | ✅ 开源 | ❌ 闭源 |
中文优化 | ✅ 很强 | ✅ 强 |
代码能力 | ✅ 强 | ✅ 更强 |
推理速度 | ✅ 轻量级 MoE 优势 | ❌ 需要更大计算资源 |
本地部署 | ✅ 可以 | ❌ 不能 |
使用限制 | ✅ 自由可商用 | ❌ 需要 API 访问 |
DeepSeek 的最大优势是 开源 和 中文优化好,比 GPT-4 更适合 本地部署 和 企业使用,所以它特别适合 中文 AI 应用、代码辅助开发 等场景。
4. 地址链接
DeepSeek 官网:
https://www.deepseek.com/
DeepSeek 可视化聊天:
https://chat.deepseek.com/
DeepSeek 开放平台:
https://platform.deepseek.com/
DeepSeek 接口文档:
https://api-docs.deepseek.com/zh-cn/
DeepSeek 可视化聊天是免费的,接入 API 是付费的,不过相比 OpenAI 要便宜太多了,这也是它的优势。
5. 三种访问方式
DeepSeek的R1和V3模型现已在网页端、APP以及API上全面推出,为用户提供多样化的访问途径。这三种访问方式各具特色,适用于不同的使用场景。
DeepSeek的网页端是一