一文读懂deepseek技术细节及实战应用(持续更新)

2025年1月20日,杭州深度求索人工智能基础技术研究有限公司发布高性能AI推理模型DeepSeek R1,实现国产AI技术重大突破。该模型在数学、代码和自然语言推理等任务表现出色,性能与OpenAI的o1正式版相当,且以开源形式按MIT协议向全球开发者开放,支持免费商用。

其核心优势包括:
a、后训练阶段借助强化学习技术,在无需大量监督微调数据的情况下显著提升推理能力并降低训练成本;
b、采用长链推理技术逐步分解复杂问题,支持模型蒸馏以将推理能力迁移到小型模型满足特定场景需求;
c、遵循MIT License开源协议,允许自由使用、修改和商用,有力推动AI技术普及与创新 。

模型发布节点:
2024年1月,发布了DeepSeek LLM,
2024年5月,DeepSeek开源了第二代MoE大模型DeepSeek-V2,性能直逼GPT-4Turbo,但成本大幅降低。
2024年11月20日,推理模型DeepSeek-R1-Lite预览版上线。
2024年12月26日,DeepSeek-V3首个版本上线并同步开源。
2025年1月20日,DeepSeek正式发布DeepSeek-R1模型,训练成本仅为560万美元,性能比肩OpenAI的o1模型正式版。

DeepSeek以其卓越的性能、显著的成本优势和开放的开源策略,在AI领域独树一帜,为用户提供了高效、智能的服务体验。DeepSeek系列模型从最初的DeepSeek LLM到如今的DeepSeek R1,历经多代演进。在架构设计、训练算法、推理效率和模型表现等方面,每一代都实现了显著的创新与优化。本文将深入剖析DeepSeek系列模型的原理及其应用。

一、deepseek系列技术细节汇总

1.1、论文链接汇总

(1)DeepSeek LLM

发布时间:2024 年 1 月 5 日

论文标题:DeepSeek LLM: Scaling Open-Source Language Models with Longtermism

论文地址:
https://arxiv.org/abs/2401.0295420

(2) DeepSeekMoE

发布时间:2024 年 1 月 11 日

论文标题:DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models

论文地址:
https://arxiv.org/abs/2401.060662

(3) DeepSeek-V2

发布时间:2024 年 5 月

论文标题:DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model

论文地址:
https://arxiv.org/abs/2405.044343
(3)DeepSeek-V3

发布时间:2024 年 12 月 27 日

论文标题:DeepSeek-V3 Technical Report

论文地址:
https://arxiv.org/abs/2412.1943714
(4) DeepSeek-R1

发布时间:2025 年 1 月

论文标题:DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

论文地址:
https://arxiv.org/abs/2501.129481

(5) DeepSeek-R1 蒸馏模型

发布时间:2025 年 1 月

论文标题:Distilling Reasoning Capabilities from DeepSeek-R1 to Smaller Models

论文地址:
https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf5​

1.2、百度网盘链接

链接: https://pan.baidu.com/s/1VRC42w6qsXwmSHO47EU3xg?pwd=AIGC 提取码: AIGC

1.3、github链接汇总
(1)DeepSeek-R1
https://github.com/deepseek-ai/DeepSeek-R1

(2)DeepSeek-VL2
https://github.com/deepseek-ai/DeepSeek-VL2

(3)DeepSeek-V3
https://github.com/deepseek-ai/DeepSeek-V3

二、不同版本技术细节以及差异详解

待补充。

三、DeepSeek 本地部署

3.1、Ollama下载安装

Ollama是现阶段最方便的在本地运行DeepSeek的方式。打开官网之后点击「Download」。Windows与Mac都是直接在官网下载后安装应用。

官网:https://ollama.com

在这里插入图片描述
在这里插入图片描述

Linux可以直接执行下面的命令:

#下载安装
curl -fsSL https://ollama.com/install.sh | sh
#启动
ollama serve 

安装完毕确认是否安装成功,打开命令行终端,使用 Mac系统的,打开 Terminal。Windows 系统上,在搜索的地方输入cmd 然后打开「命令提示符」。输入ollama --version 如果打印出对应版本则安装成功。

ollama --version

3.2、模型部署

在 Ollama 官网的「Models」导航处,搜索「deepseek」就能搜索到deepseek所有模型。Ollama模型库中有多样的DeepSeek-R1模型版本如1.5B、7B、32B等,(b 是 billion 首字母,十亿的意思。表示参数的数量规模,越大则模型能够处理的任务越复杂。)模型下载需依据自身电脑硬件配置选合适版本。

通常情况:模型显存占用每1B参数约需1.5-2GB显存(FP16精度)或0.75-1GB显存(INT8/4-bit量化),如32B模型在FP16下需约48-64GB显存,量化后可能降至24-32GB;内存至少为模型大小的2倍用于加载和计算缓冲;存储建议用NVMe SSD。

在这里插入图片描述

若选择 1.5B 版本,输入ollama run deepseek-r1:1.5b 。

若选择 7B 版本, 输入ollama run deepseek-r1:7b 。

若选择 8B 版本, 输入ollama run deepseek-r1:8b 。

若选择 32B 版本,输入ollama run deepseek-r1:32b 。

在这里插入图片描述

看到 success,说明模型下载完毕了。可以直接在终端和 deepseek 进行对话了。当然如果需要更加直观,可以安装个客户端,ChatBox、Cherry Studio 等都可以。

ChatBox 官网链接:https://chatboxai.app。

Cherry Studio官网链接:https://cherry-ai.com。

根据你的操作系统(支持 Windows、Mac 和 Linux)下载对应的安装包进行安装。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值