Deepseek相关梳理

发展历程及重要节点

  1. 2023 年:7 月 17 日杭州深度求索人工智能基础技术研究有限公司成立。
  2. 2024 年
    • 1 月 5 日,发布首个大模型 DeepSeek LLM。
    • 5 月,宣布开源第二代 MoE 大模型 DeepSeek - V2。
    • 9 月 5 日,升级推出 DeepSeek V2.5 新模型。
    • 11 月 20 日,推理模型 DeepSeek - R1 - Lite 预览版上线。
    • 12 月 26 日,DeepSeek - V3 首个版本上线并开源。
  3. 2025 年
    • 1 月 20 日,正式发布 DeepSeek - R1 模型。
    • 1 月 31 日,DeepSeek R1 671b 作为英伟达 NIM 微服务预览版在build.nvidia.com上发布。
    • 2 月,DeepSeek - R1、V3、Coder 等系列模型陆续上线国家超算互联网平台。
    • 2 月 4 日,DeepSeek V3 和 R1 模型完成海光 DCU 国产化适配并上线。
    • 2 月 24 日,启动 “开源周”,首个开源的代码库为 Flash MLA。

当下开源的重要意义

  • 技术传播与创新:使全球开发者能自由获取和使用其技术,促进 AI 技术在全球范围内的快速传播,不同开发者可基于开源代码进行二次开发和创新,推动技术不断迭代升级。
  • 社区建设与合作:有助于建立庞大且活跃的社区,开发者可交流思想、分享经验,共同解决技术难题,形成良好的技术生态,吸引更多人参与到 AI 技术的发展中来。
  • 降低开发门槛:降低了 AI 开发的门槛和成本,让更多企业和个人能够开展 AI 相关的研究和应用开发,加速 AI 技术在各领域的普及和应用。
  • 提升品牌影响力:提升了 DeepSeek 的品牌知名度和影响力,展示了公司的技术实力和开放创新的态度,为公司赢得更多的合作伙伴和市场机会。
  • 推动行业发展:打破技术垄断,促进资源共享,推动整个 AI 行业向更加开放、包容和普惠的方向发展,有利于构建健康、可持续的 AI 产业生态。

最新开源的推理模型 DeepSeek - R1 的基本设计原理

  • 核心技术与架构
    • 强化学习驱动:采用组相对策略优化(GRPO)算法,通过奖励机制和规则引导模型生成结构化思维链(CoT),是首个完全通过强化学习训练的大型语言模型,无需依赖监督微调(SFT)或人工标注数据。
    • 多阶段训练流程:包括冷启动阶段、强化学习导向训练和全场景训练等。冷启动阶段用少量高质量数据微调基础模型,再逐步加入通用场景和指令优化性能。
    • 专家混合架构(MoE):基于 671B 参数的混合专家架构,包含 16 个专家网络,支持多种语言和技术领域。
    • 长链推理支持:支持长链推理(CoT),可生成数万字的思维链,提高复杂任务推理准确性。
  • 训练与优化
    • 冷启动数据:收集数千个高质量冷启动数据,主要由长链推理示例组成,通过少样本提示等方式生成,经筛选和人工标注后用于微调基础模型。
    • 奖励机制:设有准确性奖励、格式奖励和语言一致性奖励等机制,优化模型输出质量和可读性。
    • 拒绝采样技术:在生成高质量样本时,利用拒绝采样技术过滤低质量输出,确保推理结果可靠。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值