全面认识了解DeepSeek+利用ollama在本地部署、使用和体验deepseek-r1大模型


一、DeepSeek简介

DeepSeek 是一家专注于人工智能领域的创新型科技公司;成立于2023年7月;公司名称:杭州深度求索人工智能基础技术研究有限公司。

大事件:

  • 2025 年 1 月,其相关应用登顶苹果中国地区和美国地区应用商店免费 APP 下载排行榜,在美区下载榜上超越了 ChatGPT。
  • 受 DeepSeek 冲击,2025 年 1 月 27 日美国人工智能主题股票遭抛售,美国芯片巨头英伟达股价历史性暴跌,纳斯达克综合指数大幅下跌。

发展历程及产品发布

  • 2024 年 1 月 5 日,发布 DeepSeek LLM,这是深度求索的第一个大模型,包含 670 亿参数,全部开源。
  • 2024 年 1 月 25 日,发布 DeepSeek-Coder,由一系列代码语言模型组成,在多种编程语言和各种基准测试中达到了开源代码模型的最先进性能。
  • 2024 年 2 月 5 日,发布 DeepSeek Math,以 DeepSeek-Coder-V1.5 7B 为基础进行预训练,在竞赛级 Math 基准测试中取得了 51.7% 的优异成绩。
  • 2024 年 3 月 11 日,发布 DeepSeek-VL,是一个开源的视觉 - 语言(VL)模型,在各种视觉任务中能捕捉关键语义和细节信息。
  • 2024 年 5 月 7 日,发布第二代开源混合专家(MoE)模型 DeepSeek-V2,包含 2360 亿个总参数,以经济高效的训练和推理为特点。
  • 2024 年 6 月 17 日,发布 DeepSeek-Coder-V2,在代码特定任务中达到了与 GPT4-Turbo 相当的性能。
  • 2024 年 12 月 13 日,发布用于高级多模态理解的专家混合视觉语言模型 DeepSeek-VL2,在多种任务中展现了卓越的能力。
  • 2024 年 12 月 26 日,发布 DeepSeek-V3 首个版本并同步开源,为自研 MoE 模型,生成速度相比 V2.5 模型实现了 3 倍的提升。
  • 2025 年 01 月 20 日DeepSeek-R1 发布,性能对标 OpenAI o1 正式版;DeepSeek-R1 在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩 OpenAI o1 正式版。
  • 蒸馏小模型超越 OpenAI o1-mini:在开源 DeepSeek-R1-Zero 和 DeepSeek-R1 两个 660B 模型的同时,通过 DeepSeek-R1 的输出,蒸馏了 6 个小模型开源给社区,其中 32B 和 70B 模型在多项能力上实现了对标 OpenAI o1-mini 的效果。

在这里插入图片描述

二、技术特点

  • 性能强劲:在知识类任务、美国数学竞赛和全国高中数学联赛等测试中表现出色,大幅超过部分开源闭源模型,在多语言编程测试排行榜中,仅次于 OpenAI o1 大模型。
  • 开源特性:多个模型完全开源,如 DeepSeek-V3 等,采用 Apache2.0 许可证,开发者和研究人员可以对其进行访问、使用、研究、修改和分享。
  • 多语言支持:支持多达 20 种语言的实时翻译和语音识别,在中文能力上与 Qwen2.5-72B 在部分评测集上表现相近。
  • 训练成本低:如 DeepSeek-V3 的训练仅使用了 2048 个 H800 GPU,其 API 服务定价也具有较高的性价比。

免费,开源,成本低,算法强,性能高

三、架构设计

DeepSeek 不同模型在 Transformer 架构基础上进行了诸多创新;

3.1、DeepSeek-V3

多头潜注意力(MLA)

  • 计算分解:将键和值向量的计算分解成两个步骤,引入潜变量。把传统计算键和值向量从原材料到产品的加工,加入了 “中间产品” 潜向量,将原本的矩阵分解成两个较小矩阵,在推理时只缓存潜向量,大大节省存储空间。
  • 低秩压缩:利用不同注意力头之间信息重叠的特性,通过低秩压缩提取共同信息,允许不同注意力头以不同方式使用这些信息,减少冗余,还可能对训练产生正则化效果。

混合专家模型(MoE)的进化

  • 无辅助损失的负载均衡:抛弃传统在训练损失中添加辅助损失项的方法,采用动态偏置项。为每个专家设置可学习偏置项并加到专家亲和力上,若某个专家被激活次数过少,就增加其偏置项,使其更易被选中,避免辅助损失带来的性能损害。
  • 共享专家机制:通过共享专家机制,不同的任务或数据可以共享一些通用的专家,提高专家的利用率,进一步提升模型的效率和泛化能力,避免路由崩溃。

多令牌预测(MTP):传统模型一般逐个预测 token,MTP 技术可以一次预测多个 token,使模型推理速度更快,生成内容更连贯,提升了模型的生成效率和质量。

3.2、DeepSeek-V2

  • Transformer 核心:每个 Transformer 块由一个注意力模块和一个前馈网络(FFN)组成,为模型提供基础的并行计算和长序列处理能力,能够捕捉文本中的长距离依赖关系。
  • MLA 架构:减少计算量和推理显存,让模型在处理长文本等任务时,能更高效地利用资源,提升处理速度和性能。
  • DeepSeekMoE:自研的 Sparse 结构,进一步降低计算量,与 MLA 结合实现模型性能跨级别的提升,在拥有大量参数的情况下,保持高效的计算和推理。
  • 训练框架:基于高效且轻量级的框架 HAI-LLM 进行训练,采用 16-way zero - bubble pipeline 并行、8-way 专家并行和 ZeRO-1 数据并行,提高训练效率,充分利用计算资源,加速模型收敛。

3.3、DeepSeek-R1

  • 知识蒸馏架构:通过知识蒸馏架构,将长链推理模型的能力传递给标准的 LLM,提升标准 LLM 的推理能力,使模型能够更好地处理复杂的推理任务。
  • 强化学习架构:以纯强化学习架构训练 R1-Zero,让模型在试错中学习,探索新的训练方式,为模型训练提供新方向,尽管存在一些问题,但具有一定的创新性和探索价值。
  • 多阶段训练架构:引入多阶段训练和冷启动数据,在不同训练阶段采用不同方法,并在模型开始学习前提供高质量数据,帮助模型更好地初始化和学习,提高模型的训练效果和稳定性。

四、DeepSeek算法

DeepSeek 算法以 Transformer 架构为基础,采用了多种技术来提升性能和效率;

4.1、DeepSeek LLM 算法

架构方面

  • 核心 Transformer 架构:采用自回归 Transformer 解码器架构,以注意力机制为核心,能并行计算,高效处理长序列数据,捕捉文本长距离依赖关系,让模型更好理解上下文语义。
  • 分组查询注意力(GQA):在 670 亿参数版本中采用 GQA 技术,优化推理成本,在保持性能同时减少计算量,提高模型运行效率。
  • 旋转位置编码(Rotary Embedding):采用旋转位置编码表示位置信息,让模型能区分不同位置的文本信息,更好捕捉文本顺序和结构,提升语言理解和生成能力。

训练优化方面

  • 优化器:选择 AdamW 优化器,结合了 Adam 优化器和权重衰减技术,有效调整模型参数更新步长,防止过拟合,有助于模型快速稳定收敛。
  • 学习率策略:采用独特的多步学习率计划,根据训练阶段和数据特点调整学习率,在不同训练时期为模型提供合适学习率,提高训练效率和模型性能。
  • 微调技术:使用监督微调(SFT)和直接偏好优化(DPO)技术,基于预训练模型,在特定任务数据集上微调,使模型输出更符合任务需求,提升在具体任务上的性能表现。

4.2、DeepSeek-V2 算法

  • 混合专家(MoE)架构:采用混合专家架构,由多个专家网络和门控网络组成,根据输入数据动态选择激活部分专家网络处理,提高模型表示能力和灵活性,降低计算成本和存储需求。
  • 海量数据预训练:在包含 8.1 万亿 token 的多样化且高质量语料库上预训练,让模型学习丰富语言知识和模式,掌握不同领域、主题和语言风格特点,提升泛化能力。
  • 强化学习优化:完成预训练后,通过强化学习进一步优化,基于奖励信号调整模型参数,使模型生成结果更符合人类期望和任务目标,提升模型性能和实用性。

4.3、DeepSeek-R1 算法

  • 无监督强化学习:通过无监督强化学习技术改进数据处理方式,无需人工标注数据,模型自动从无监督数据中学习特征和模式,降低数据标注成本,提高数据利用效率,在 MMLU 基准测试中,自生成合成数据质量达人工标注数据的 92%。
  • 稀疏激活特性:具有稀疏激活特性,运行时仅激活部分参数处理输入数据,减少计算量和存储需求,提高模型运行速度和效率,提升输出可信度,达到金融业务合规标准。

4.4、DeepSeek 在算力优化上的算法

  • FP8 精度格式:引入 FP8 精度格式,提高计算效率,在传统计算模式下单卡有效算力仅为 18TFLOPS,通过 FP8 格式应用,算力跃升至 42TFLOPS,降低了硬件成本。
  • 参数效率优化:遵循参数效率高于绝对参数量的原则,其 130B 参数模型在 GSM8K 测试中表现优于传统 340B 模型,注重提升参数利用效率,而非单纯增加参数量来提高模型性能。

五、DeepSeek的使用

DeepSeek 的入口可以通过以下方式:

在这里插入图片描述

六、本地部署DeepSeek R1模型

本文使用Ollama和Open WebGUI这两个工具在本地部署DeepSeek R1模型;

6.1、安装Ollama

Ollama是一个用于管理和部署机器学习模型的工具。

下载window安装版本ollama :https://ollama.com/download

在这里插入图片描述

在这里插入图片描述

#安装ollama到指定目录
OllamaSetup.exe /DIR="E:\DevelopmentEnvironment\ollama"

安装完成后测试访问:

http://localhost:11434/

在这里插入图片描述

6.2、下载DeepSeek R1模型

通过ollama官网下载deepseek-r1:1.5b模型:
在这里插入图片描述

ollama run deepseek-r1:1.5b

在这里插入图片描述
安装完成后,就可以通过命令行的形式与deepseek-r1进行对话了
在这里插入图片描述

在这里插入图片描述


你独自走过了很多艰难时刻;新的一年你一定要幸福啊!


### Java与DeepSeek的技术融合 #### DeepSeek在Java开发中的作用 在现代软件开发领域,Java开发工程师面对着复杂多变的任务需求严格的时间约束。为了应对这些挑战,DeepSeek作为一款先进的AI工具,为Java开发者提供了全方位的支持,涵盖了代码编写、调试、架构设计等多个方面[^1]。 #### 实际应用场景举例 当涉及到具体的编程实践时,DeepSeek不仅限于简单的语法建议,还能深入参与到更复杂的任务中去。例如,在构建基于Spring Boot框架的应用程序时,可以通过特定指令让DeepSeek自动生成带有用户注册功能的RESTful API接口,此过程会自动加入JPA持久化机制、参数验证以及全局异常处理器等功能模块[^5]。 此外,针对那些希望利用最新的人工智能进展来增强自己应用程序的企业个人而言,可以考虑采用专门为DeepSeek定制化的解决方案——`DeepSeek4j`。这个库由Pig团队创建,它继承并扩展了OpenAI4J项目的优点,特别适合用于处理涉及DeepSeek特有属性(如思维链条)的工作负载;同时兼容不同版本的Spring Boot环境,并且内置了丰富的特性集,比如响应式的流控制支持详细的日志记录等[^4]。 ```java // 使用DeepSeek4j简化API调用流程 import com.deepseek.DeepSeekClient; import org.springframework.web.reactive.function.client.WebClient; public class ExampleService { private final WebClient webClient = WebClient.builder().baseUrl("http://example.com").build(); public String getExampleData() { return new DeepSeekClient(webClient).get("/api/data"); } } ``` #### 性能表现评估 从性能角度来看,特别是在执行工程类任务上,尽管某些商业产品可能暂时领先一步,但是开源版的DeepSeek-V3已经展现出了相当不错的竞争力。尤其是在解决算法难题方面,得益于内部采用了高效的知识提炼方法论,使得这款模型能够在多个权威评测标准下取得优异的成绩,证明了其具备强大的问题解析能力高效的代码生产能力[^3]。
评论 10
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

hhzz

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值