23. AI-大语言模型-DeepSeek


前言

DeepSeek

  • DeepSeek 是一家专注通用人工智能(AGI)的中国科技公司,主攻大模型研发与应用。
  • DeepSeek 的研发及开源,0->1,科研成果的重要一步。
  • DeepSeek 的应用,1->100,可以做什么,如何赋能职场应用。

一、DeepSeek是什么

1. 简介

  DeepSeek 是国内一款开源的大模型,主打通用 AI 能力,类似于 OpenAI 的 GPT 系列,目标是打造国产的、强大的、开放的大语言模型

DeepSeek 在今年春节期间迅速爆红,并凭借强劲的性能,获得了大量开发者的关注,它最大的特点是开源、使用成本低,并且性能不输 ChatGPT。

ai.com 这个域名之前跳转的是 ChatGPT,现在跳到 DeepSeek,可知 DeepSeek 的火爆程度。

DS太香了

2. 产品版本

  1. DeepSeek 主要有以下几个大模型:
  • DeepSeek R1(最新最强大)
  • DeepSeek V3
  • DeepSeek Coder V2
  • DeepSeek VL
  • DeepSeek V2
  • DeepSeek Coder
  • DeepSeek Math
  • DeepSeek LLM

DeepSeek-R1 为例,满血版本为:671B,性能最强,也就是官网部署的版本。
还有几个蒸馏版本:

DS-R1版本

模型规格后面的数字代表模型的参数量,而 b 则是指 “billion” 的意思,也就是十亿,表示这个模型有多少亿个参数:

  • 1.5b 有 15 亿个参数;
  • 671b 是 6710 亿个参数。

参数量直接决定了一个模型的计算能力和硬件需求,一般来说:

  • 参数越大: 代表模型越聪明,对复杂问题的处理能力越强,但对算力和硬件的要求也越高。
  • 参数越小: 代表模型越轻量化,对算力和硬件的要求越低,适合资源受限的设备。

所以,一个模型的参数量越大,它能处理和生成的内容质量越复杂、越高,也更能满足我们的要求,不过也需要更多的硬件资源来支撑。

  DeepSeek-R1 系列模型的规格划分主要是为了适应不同场景的需求,从小到大覆盖了轻量化应用到高算力推理的各种场景。在实际应用中,我们需要根据算力、成本、业务需求等综合因素来选择合适的模型。适合自己的,才是最好的!

  1. 参数规模与模型能力

参数规模(B = Billion/十亿)代表模型的复杂度和学习能力,参数越多,通常理解和生成能力越强。

  • 1.5B - 14B:轻量级模型,适合基础任务(文本生成、简单问答)。
  • 32B - 70B:中等规模,平衡性能与资源消耗,适合复杂任务(逻辑推理、代码生成)。

本地部署后跑的就是本地算力了,叠加知识库,可以实现内部的资料对话式查询,资料不上网,更加安全可靠。不同模型需要的硬件配置,以下可供参考:

  • 1.5B:CPU最低4核,内存8GB+,硬盘3GB+存储空间,显卡非必需,若GPU加速可选4GB+显存,适合低资源设备部署等场景。

  • 7B:CPU 8核以上,内存16GB+,硬盘8GB+,显卡8GB+显存,可用于本地开发测试等场景。

  • 8B:硬件需求与7B相近略高,适合需更高精度的轻量级任务。

  • 14B:CPU 12核以上,内存32GB+,硬盘15GB+,显卡16GB+显存,可用于企业级复杂任务等场景。

  • 32B:CPU 16核以上,内存64GB+,硬盘30GB+,显卡24GB+显存,适合高精度专业领域任务等场景。

  • 70B:CPU 32核以上,内存128GB+,硬盘70GB+,显卡需多卡并行,适合科研机构等进行高复杂度生成任务等场景。

3. 特征

DeepSeek 之所以能迅速崛起,主要是因为它在技术上有一些独特的优势。

DeepSeek 采用了 Mixture of Experts(MoE,混合专家模型),这一架构让它可以在计算资源相对有限的情况下,仍然保持高性能,实现了它对 OpenAI 的弯道超车。

MoE 的核心思想是:

不是所有参数都在每次推理时被激活,而是只有一部分专家(Experts)在工作,这样可以减少计算成本,同时 提高模型的推理效率。

相比于 OpenAI 的 GPT-4,DeepSeek 的 MoE 版本可以用更少的计算量,获得接近 GPT-4 级别的性能。与OpenAI-o1的性能对比:

模型对比
DeepSeek 是国产大模型,那么,它和 GPT-4 的差距在哪里?

对比项 DeepSeek GPT-4
是否开源 ✅ 开源 ❌ 闭源
中文优化 ✅ 很强 ✅ 强
代码能力 ✅ 强 ✅ 更强
推理速度 ✅ 轻量级 MoE 优势 ❌ 需要更大计算资源
本地部署 ✅ 可以 ❌ 不能
使用限制 ✅ 自由可商用 ❌ 需要 API 访问

DeepSeek 的最大优势是 开源 和 中文优化好,比 GPT-4 更适合 本地部署 和 企业使用,所以它特别适合 中文 AI 应用、代码辅助开发 等场景。

4. 地址链接

DeepSeek 官网:

https://www.deepseek.com/

DeepSeek 可视化聊天:

https://chat.deepseek.com/

DeepSeek 开放平台:

https://platform.deepseek.com/

DeepSeek 接口文档:

https://api-docs.deepseek.com/zh-cn/

DeepSeek 可视化聊天是免费的,接入 API 是付费的,不过相比 OpenAI 要便宜太多了,这也是它的优势。

5. 三种访问方式

DeepSeek的R1和V3模型现已在网页端、APP以及API上全面推出,为用户提供多样化的访问途径。这三种访问方式各具特色,适用于不同的使用场景。

DeepSeek的网页端是一

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值