段智华的博客

热烈祝贺Gavin大咖2024年北京航空航天大学两本新书《Transformer&ChatGPT解密：原理、源码及案例》、《Transformer& Rasa 解密: 原理、源码及案例》出版发行，欢迎关注访问！

原创 2025年重磅喜讯！热烈祝贺Gavin大咖大模型领域经典著作《Transformer& Rasa 解密原理、源码及案例》北京航空航天大学出版社发行上市!

自2016年3月，阿尔法狗战胜人类围棋高手以来，人工智能技术取得了空前的成就，引领着人类社会进入了一个全新的时代。2017年7月，国务院正式发布了《新一代人工智能发展规划》，将人工智能发展明确为国家战略，为我国在这一领域的发展指明了方向。2023年2月，国务院发布了《数字中国建设整体布局规划》，提出到2025年，我们将基本形成横向打通、纵向贯通、协调有力的一体化推进格局，数字中国建设取得重要进展。到2035年，我们的数字化发展水平将进入世界前列，数字中国建设取得重大成就。

2025-01-26 19:00:00 1645

原创 2024年重磅喜讯！热烈祝贺Gavin大咖大模型领域经典著作《Transformer&ChatGPT解密：原理、源码及案例》北京航空航天大学出版社发行上市!

2024年重磅喜讯！热烈祝贺Gavin大咖大模型领域经典著作《Transformer&ChatGPT解密：原理、源码及案例》北京航空航天大学出版社发行上市!

2024-06-09 10:42:22 454

原创 2020年重磅喜讯！热烈祝贺王家林大咖人工智能及大数据领域经典著作《Apache Spark+AI全息代码解密》清华大学出版社发行上市!

2020年重磅喜讯！热烈祝贺王家林大咖人工智能及大数据领域经典著作《Apache Spark+AI全息代码解密》清华大学出版社发行上市!目录全息代码解密编辑推荐内容简介作者简介本书目录前言新书链接全息代码解密Apache Spark+AI全息代码解密（京东套装共2册）你需要的Apache Spark和AI技能都在这里！全程案例驱动无痛学习，动手创造自己AI框架，解密Alluxio, 抽丝剥茧学习Spark内核所有关键源码及实践优化的一切秘密https://item.jd.com/1302908

2020-12-12 09:52:10 1431 8

原创 2020年重磅喜讯！热烈祝贺王家林大咖人工智能领域经典著作《企业级AI技术内幕：深度学习框架开发+机器学习案例实战+Alluxio解密》清华大学出版社发行上市!

2020年重磅喜讯！热烈祝贺王家林大咖人工智能领域经典著作《企业级AI技术内幕：深度学习框架开发+机器学习案例实战+Alluxio解密》清华大学出版社发行上市!目录大咖心声新书图片内容简介作者简介目录前言/序言新书案例案例一：自研盘古人工智能框架案例二：基于Pytorch的自然语言处理模型(BERT)的应用案例案例三：人力资源主管正确评估新招聘员工薪水的案例案例四：基于Alluxio+Pytorch的深度学习案例案例五：Spark+AI实战案例新书网购链接新书资讯大咖心声数据象征空间AI代理时间

2020-10-31 08:54:56 2631 2

原创 2020年重磅喜讯！热烈祝贺王家林大咖大数据经典传奇著作《Spark大数据商业实战三部曲》畅销书籍第二版清华大学出版社发行上市! 前浪致 Spark + AI 后浪

王家林大咖清华大学新书Spark第二版已上市：致 Spark + AI 初学者前言新书介绍编辑推荐内容简介作者简介精彩章节新书目录第二版前言第一版前言Spark+AI学习路径献给Spark+AI的“后浪”新书案例讲解第二版网购链接新书资讯前言欢迎来到清华大学出版社《Spark 大数据商业实战三部曲：内核解密|商业案例|性能调优（第2 版）》新书博客！关注到Spark新书发布的每一位同学，应该是学习了很多大数据的基础知识，学习了很多人工智能的技术资料，正在寻求进一步的自我成长。在学习过程中，一定是遇到了很

2020-05-25 11:08:23 2018 1

原创 2020年重磅喜讯！热烈祝贺王家林大咖大数据经典传奇著作《Spark大数据商业实战三部曲》畅销书籍第二版清华大学出版社发行上市!

《Spark大数据商业实战三部曲》第二版购书链接：https://item.jd.com/12864870.html

2020-05-22 16:27:07 1343 3

原创 2018年新春报喜！热烈祝贺王家林大咖大数据经典传奇著作《SPARK大数据商业实战三部曲》畅销书籍清华大学出版社发行上市!

2018年新春报喜！热烈祝贺王家林大咖大数据经典传奇著作《SPARK大数据商业实战三部曲》畅销书籍清华大学出版社发行上市!本书基于Spark 2.2.0新版本，以Spark商业案例实战和Spark在生产环境下几乎所有类型的性能调优为核心，以Spark内核解密为基石，分为上篇、中篇、下篇，对企业生产环境下的Spark商业案例与性能调优抽丝剥茧地进行剖析。上篇基于Spark源码，从一个动手...

2018-02-13 19:47:15 7302 3

原创 DeepSeek-R1 Supervised finetuning and reinforcement learning (SFT + RL)

本次直播深入探讨了大模型智能体系统（Agents AI）及其应用程序开发中的关键问题，重点介绍了监督微调（SFT）和强化学习（RL）的结合应用。内容涵盖基础模型和推理模型的核心能力，特别是基础模型的解码算法和推理模型在强化学习中的具体实现方式。这些技术构成了大模型智能体应用程序的底层核心能力，是企业级产品落地时必须考虑的重要部分。直播通过系统性分享，帮助开发者更好地理解和应用这些技术。

2025-05-17 22:47:52 205

原创解密企业级大模型智能体Agentic AI 关键技术：MCP、A2A、Reasoning LLMs-MCP大模型上下文解析

企业级大模型智能体（Agentic AI）的关键技术之一是MCP（大模型上下文解析），它通过标准化协议解决大模型与环境交互的问题。MCP协议允许大模型利用所有已开发的IT或AI资源，如数据和API功能，以增强推理和决策能力。MCP server作为核心组件，封装了各种外部工具和资源，包括本地、远程或分布式的文件系统。通过MCP协议的SDK客户端，应用程序可以间接访问这些资源，实现解耦合，从而使AI应用程序能够与任何级别的MCP server通信，进而执行各种功能。这一技术不仅提升了开发质量，还促进了全球协作

2025-05-15 19:30:00 445

原创解密企业级大模型智能体Agentic AI 关键技术：MCP、A2A、Reasoning LLMs- Manus技术解密

如果你从应用程序的角度讲，但是如果我们从模型的角度讲，我们必须让模型既具有这种思考的能力，也具有产出这种最佳的action的这种能力。而且这次和环境不断交互的多轮的这种交互的过程中不断进行动态调整，这就带来了极大的灵活性。所以我们前四大阶段的课程120个小时左右，实际交付的数就是5月21号之前都会完成，肯定会超过120个小时。以及后续每周一个大型的项目，它有啊至少10个小时的录屏，以及周六周日的这个直播。

2025-05-15 19:15:00 386

原创解密企业级大模型智能体Agentic AI 关键技术：MCP、A2A、Reasoning LLMs- Manus解密

企业级大模型智能体Agentic AI的关键技术包括MCP、A2A和Reasoning LLMs。这些技术通过分布式协同工作，尽管每次迭代只选择一个工具，但这与分布式系统的直觉并不冲突。智能体可以执行多种任务，如信息收集、数据处理、文件报告编写等，并通过远程桌面与用户交互，分享文件或发送通知。Manus作为核心智能体，展示了从用户输入到任务分解、代理协调、执行和组合的完整工作流程。这些技术共同构成了大模型智能体的核心技术维度，包括上下文和工具的使用，以及策略的制定和执行。

2025-05-15 19:15:00 525

原创解密企业级大模型智能体Agentic AI 关键技术：MCP、A2A、Reasoning LLMs- MCP内幕解析

**问：LLM的经典预训练Pipeline是怎样的？**答：基于Transformer decoder的LLM ，如ChatGPT、LLaMA、百川等，一般先有预训练base模型，再用RLHF微调得到Chat模型。Chat模型训练主要分三步：一是预训练，让模型从海量无标注文本数据集中学习通用知识；二是有监督微调（SFT），优化模型使其更好遵循特定指令；三是利用对齐技术，让LLM更安全有效地响应用户提示。

2025-05-15 19:15:00 299

原创解密企业级大模型智能体Agentic AI 关键技术：MCP、A2A、Reasoning LLMs-docker MCP解析

解密企业级大模型智能体Agentic AI 关键技术：MCP、A2A、Reasoning LLMs-docker MCP解析

2025-05-15 19:15:00 486

原创解密企业级大模型智能体Agentic AI 关键技术：MCP、A2A、Reasoning LLMs-强化学习算法AlphaGo

企业级大模型智能体Agentic AI的关键技术包括MCP、A2A和Reasoning LLMs，其中强化学习算法AlphaGo的训练过程展示了其自我学习和成长的能力。AlphaGo Zero从零开始，通过强化学习在短时间内达到顶级水平，并在40天后超越所有版本。其训练过程体现了探索与利用的平衡，以及从经验中学习的能力。随着训练时间的增加，模型的推理能力（Reasoning Capability）逐渐增强，表现为思考过程的长度和维度的增加。这一趋势表明，模型能够处理更复杂的推理任务，展示了Agentic A

2025-05-14 20:30:00 166

原创解密企业级大模型智能体Agentic AI 关键技术：MCP、A2A、Reasoning LLMs-强化学习算法

本文探讨了企业级大模型智能体（Agentic AI）中的关键技术，特别是强化学习在实现人工通用智能（AGI）中的核心作用。文章指出，从Chatbot到更高级的智能体，每个阶段的核心技术都依赖于强化学习。通过视频和图像展示，文章强调了强化学习在智能体执行和生成过程中的重要性，尤其是在测试时间计算（test time compute）中的应用。文章还提到，OpenAI、Google、Llama和DeepSeek等公司都非常重视强化学习，特别是在测试阶段。最后，文章通过AlphaGo Zero的训练过程，进一步说

2025-05-14 20:15:00 450

原创解密企业级大模型智能体Agentic AI 关键技术：MCP、A2A、Reasoning LLMs- OpenAI AGI 五阶段

文章探讨了企业级大模型智能体（Agentic AI）的关键技术，包括MCP、A2A和Reasoning LLMs，并详细介绍了OpenAI的AGI（人工通用智能）发展的五个阶段。这五个阶段从基础的聊天机器人（chatbot）到具有自主行动能力的智能体（agent），再到创新者（innovator）和组织管理者（organizations）。文章强调，智能体不仅具备思考能力，还能基于分析采取最佳行动，这是高于单纯推理模型的发展水平。此外，文章指出，实现AGI的关键在于强化学习，尤其是在面对未知环境和创新挑战时

2025-05-14 20:00:00 733

原创解密企业级大模型智能体Agentic AI 关键技术：MCP、A2A、Reasoning LLMs- consistency is the key

企业级大模型智能体（Agentic AI）的关键技术包括MCP、A2A和Reasoning LLMs，其中一致性（consistency）是核心。DeepSeek v3模型通过GRPO训练实现了稳定性，为强化学习中的策略和奖励模型提供了基础。OpenAI定义的AGI五大阶段具有重要参考价值，而大模型的能力从简单的对话型（如ChatGPT）逐步发展到多轮交互型（如Claude 3.5、3.7），特别是在操作电脑等复杂任务中表现突出。Reasoning models则强调AI在解决问题时具备人类水平的思考过程，

2025-05-14 19:45:00 603

原创解密企业级大模型智能体Agentic AI 关键技术：MCP、A2A、Reasoning LLMs-consistency is the key

企业级大模型智能体（Agentic AI）的关键技术包括MCP、A2A和推理一致性（Reasoning LLMs-consistency），其中一致性（consistency）是核心。在处理新颖场景（novel scenario）时，系统如何保持一致性至关重要，这直接影响到智能体的灵活性和持续改进能力。以DeepSeek为例，其成功主要归功于DeepSeek-R1的推出，该版本采用了GRPO算法，但其效果显著提升的基础在于基础模型的优化。DeepSeek-R1和DeepSeek-R1 Zero的训练流程展示

2025-05-13 20:45:00 293

原创解密企业级大模型智能体Agentic AI 关键技术：大模型智能体的三维度可控、灵活、持续学习

企业级大模型智能体（Agentic AI）的关键技术围绕三个核心维度展开：可控性（Controllability）、灵活性（Flexibility）和持续学习能力（Self-Evolving）。首先，可控性通过监督微调（SFT）和基于人类反馈的强化学习（RLHF）实现，确保模型输出符合人类预期和行为规范。其次，灵活性使模型能够适应多样化的任务和环境变化，避免僵化输出。最后，持续学习能力使智能体能够通过自我进化和自我修复，不断提升其智能水平。这三个维度共同确保大模型智能体在实际应用中具备一致性、适应性和进化能

2025-05-13 19:15:00 1048

原创解密企业级大模型智能体Agentic AI 关键技术：MCP、A2A、Reasoning LLMs- GPT源代码解析

文章探讨了企业级大模型智能体Agentic AI的关键技术，包括MCP、A2A和Reasoning LLMs，并深入解析了GPT的源代码。重点讨论了模型采样过程中的概率分布，如temperature、top k和top p参数对生成文本的影响，以及如何在探索（explore）和利用（exploit）之间取得平衡。此外，文章还提到了大模型在特定领域应用时可能出现的数据不一致性问题，以及如何通过SFT（Supervised Fine-Tuning）和知识蒸馏等技术来减少这种不确定性，使模型更好地遵循指令。最后，

2025-05-13 15:37:14 274

原创解密企业级大模型智能体Agentic AI 关键技术：MCP、A2A、Reasoning LLMs- Transformer 可视化动画方式展示6

本文深入探讨了企业级大模型智能体Agentic AI的关键技术，包括MCP、A2A、Reasoning LLMs等，并通过Transformer的可视化动画展示了其工作原理。文章详细解释了Transformer中的残差网络、多头注意力机制、MLP投影权重等核心概念，并强调了数据工程在大模型智能体中的重要性。此外，文章还展望了2025年AI技术从“对话”到“行动”的转变，指出智能体将重塑人机协作范式，并呼吁开发者积极投身于智能体架构师的黄金赛道。通过技术解析和未来展望，

2025-05-12 20:15:00 492

原创解密企业级大模型智能体Agentic AI 关键技术：MCP、A2A、Reasoning LLMs-Transformer 可视化动画方式展示

我们谈企业级大模型智能体所有的东西落脚点就是可控，就是controllability、灵活flexibility，还有就是能够自我学习，不断的进化的过程。你可以认为是self evolving agents AI system。为什么说他们特别重要？这里面有个根本性的底层原因。如果你看到这幅图你就会发现在我们谈这个大模型的时候，我们很多时候都会谈到这幅图。之所以会谈到这幅图，是因为他揭示了大模型的很多的问题，以及解决这些问题的一些可能的技术，或者说最佳的实践。那大模型本身我相信大家如果使用过，例如无论是d

2025-05-12 19:30:00 428

原创解密企业级大模型智能体Agentic AI 关键技术：MCP、A2A、Reasoning LLMs- Transformer 可视化动画方式展示

本文深入探讨了企业级大模型智能体Agentic AI的关键技术，包括MCP、A2A和Reasoning LLMs，并通过Transformer的可视化动画展示了其工作原理。文章首先介绍了输入如何转化为向量嵌入（embedding），接着通过多头注意力机制从不同维度分析元素间的关联强度，最后通过多层感知机（MLP）或前馈神经网络（FFN）进行处理。文章还详细解释了输出过程中概率统计的应用，以及如何从自然文本生成token，并最终形成向量嵌入。此外，文章提供了与同行交流的联系方式，包括微信、电话和邮箱，以便进一

2025-05-12 19:15:00 628

原创解密企业级大模型智能体Agentic AI 关键技术：MCP、A2A、Reasoning LLMs- Transformer 可视化动画方式展示3

本文深入探讨了企业级大模型智能体（Agentic AI）的关键技术，包括MCP、A2A、ADK、Manus、DeepSeek等，并通过Transformer的可视化动画展示了其运作机制。文章详细解析了Transformer block中的multi-head self attention机制，以及其在信息提取中的重要作用。此外，还介绍了feed forward neural network（FFN）和layer normalization在模型中的应用，以及如何通过linear过程确定最可能的token。文

2025-05-12 19:15:00 293

原创解密企业级大模型智能体Agentic AI 关键技术：MCP、A2A、Reasoning LLMs- Transformer 可视化动画方式展示4

本文通过可视化动画的方式，详细解析了企业级大模型智能体（Agentic AI）的关键技术，包括MCP、A2A和Reasoning LLMs。文章首先介绍了如何通过线性转换将1024维向量扩展为10万维向量，并利用softmax算法将其转化为概率分布。接着，通过动画展示了输入内容如何通过token embedding和position embedding进行处理，并经过layer normalization进行正则化。最后，重点介绍了自注意力机制（self-attention）作为大模型的核心驱动因素，以及M

2025-05-12 19:15:00 193

原创解密企业级大模型智能体Agentic AI 关键技术：MCP、A2A、Reasoning LLMs- Transformer 可视化动画方式展示5

本文深入探讨了企业级大模型智能体Agentic AI的关键技术，包括MCP、A2A和Reasoning LLMs，并通过Transformer的可视化动画展示了其核心机制。重点介绍了自注意力机制（self-attention）、多头注意力机制（MOE）和解码算法（decoding algorithm）在大模型中的重要性。文章详细解析了QKV矩阵的生成过程、注意力矩阵的计算以及初始化矩阵的技术与艺术，并探讨了激活函数在信息处理中的作用。最后，提供了与同行交流的联系方式，鼓励进一步的专业探讨。

2025-05-12 19:15:00 473

原创解密企业级大模型智能体Agentic AI 关键技术：MCP、A2A、Reasoning LLMs-企业级大模型智能体关键技术

企业级大模型智能体（Agents AI）的关键技术包括MCP、A2A和Reasoning LLMs（推理大语言模型），这些技术在企业应用中起着战略性作用。课程内容分为系统级别和大型项目两部分，总计超过120小时，涵盖关键技术、算法实现及企业级项目案例。课程强调大模型智能体的可控性（Controllability）、灵活性（Flexibility）和自我进化能力（Self Evolving），这些是确保智能体在企业环境中有效落地的核心维度。通过详细的源码分析和算法讲解，课程旨在帮助学员深入理解并掌握如何在实际

2025-05-11 15:32:36 351

原创解密企业级大模型智能体Agentic AI 关键技术：MCP、A2A、Reasoning LLMs-3 大模型智能体天然是强化学习的范式

企业级大模型智能体（Agentic AI）的关键技术包括MCP、A2A和Reasoning LLMs，这些技术天然契合强化学习范式。在训练大语言模型时，通过微调以最大化奖励，模型生成文本的过程被视为一系列状态和行动的路径。例如，回答“Where is Shanghai?”时，模型逐步生成标记，形成自回归路径，这与强化学习的交互过程相似。DeepSeek-R1模型通过强化学习将混乱状态转化为可驾驭状态，得益于其强大的基座模型DeepSeek-V3，后者将现实世界以一致的方式表达，减少了混乱度。策略梯度算法用于

2025-05-11 15:05:41 606

原创解密企业级大模型智能体Agentic AI 关键技术：MCP、A2A、Reasoning LLMs-从强化学习视角解析大模型生成过程

本文从强化学习的视角解析了企业级大模型智能体（Agentic AI）的关键技术，包括MCP、A2A和Reasoning LLMs。文章详细介绍了语言模型如何通过自回归过程生成序列，并解释了模型如何基于概率分布选择下一个标记。通过强化学习，模型在生成过程中不断调整状态和行动，逐步构建出完整的回答。文章还探讨了奖励模型的作用，通过比较不同回答的质量，模型能够学习人类的偏好，并优化其生成行为。最后，文章介绍了Transformer驱动的奖励模型及其损失函数，展示了如何通过强化学习优化语言模型的行为。整体而言，本文

2025-05-11 14:54:10 592

原创解密企业级大模型智能体Agentic AI 关键技术：MCP、A2A、Reasoning LLMs-1

企业级大模型智能体（Agentic AI）的关键技术包括MCP、A2A和Reasoning LLMs，这些技术在企业应用中具有战略性作用。大模型智能体的成功落地依赖于三个核心维度：可控性（Controllability）、灵活性（Flexibility）和自我进化（Self-Evolving）。可控性确保模型行为的方向和结果可预测和复制；灵活性使模型能够适应复杂多变的现实场景；自我进化则通过持续学习提升模型的推理能力。课程分为两部分：第一部分系统讲解大模型智能体的关键技术、算法实现及企业级项目，约120小时

2025-05-11 08:33:23 41

原创 A2A：对话与对话服务器

下面是一个当用户发送消息时发生情况的小例子：fill:#333;浏览器用户界面对话服务器管理器（内部）处理消息负载可能将任务入队 / 流式传输标记使用消息信息确认浏览器用户界面对话服务器管理器（内部）用户界面将消息发送到对话服务器。对话服务器与一个内部管理器（比如 ADKHostManager）进行通信，该管理器处理人工智能任务。服务器返回一个响应，表示消息已被接收。与此同时，任务或流式传输事件在幕后继续更新对话。

2025-05-01 06:17:29 41

原创 Manus技术架构、实现内幕及分布式智能体项目实战线上高级实训班

 模型自适应提升：通过Constitutional AI Feedback和RL from AI Feedback机制，不断提升模型对风险内容的识别与防范。 Constitutional AI Feedback机制：进一步利用宪法反馈（Self-Improvement）优化模型输出，增强防范不良内容的能力。 Final RL-CAI Model生成：完成全链路强化学习后，生成兼具高可靠性和防范能力的Final RL-CAI Model，输出高质量合规回答。

2025-04-19 09:57:49 1044

原创 Manus技术架构、实现内幕及分布式智能体项目实战

掌握Manus大模型Agent在Function Calling、Tool Calling、ReAct技术、Session与User Memory管理、self-editing memory及Human-in-the-Loop机制中的实践，构建支持复杂业务场景的企业级智能决策系统。学习短期、中期、长期状态划分、Memory Schema持久化、LangGraph Store优化、多模态数据整合及Self-editing Memory实时更新技术，确保构建出稳定、持久且高效的智能体记忆体系。

2025-04-19 09:54:50 1163

原创解锁AI潜能：模型上下文协议（MCP）的革新与应用

MCP的架构设计简洁高效。以编程领域为例，集成MCP后，AI智能体能够更好地检索相关信息，理解编程任务的上下文，减少尝试次数，编写出更细致、更实用的代码。在这个开放的社区里，大家共同努力，有望推动上下文感知AI走向新的高度，让AI更好地服务于社会，创造更多价值。在以往，每接入一个新的数据源，开发者都需进行定制化开发，这种碎片化的集成方式不仅耗费大量时间和精力，而且难以实现大规模扩展。MCP的出现，彻底改变了这一局面，它提供了统一的标准，让开发者能够以更简单、可靠的方式为AI系统提供所需数据。

2025-03-31 21:32:50 104

原创荣获2024 博客之星荣誉证书

2024 博客之星电子勋章、电子证书奖励

2025-03-10 19:00:00 149

原创 DeepSeek 专家负载均衡器（Expert Parallelism Load Balancer (EPLB)

DeepSeek 专家负载均衡器（Expert Parallelism Load Balancer (EPLB)当使用专家并行（EP）时，不同的专家被分配到不同的GPU。由于不同专家的负载可能会因当前工作负载而异，因此保持不同GPU的负载平衡非常重要。正如DeepSeek-V3论文中所描述的，采用冗余专家策略，复制重载专家。然后，将重复的专家打包到GPU上，以确保不同GPU之间的负载平衡。

2025-02-27 12:50:04 263

原创 DeepSeek-R1：模型部署与应用实践

DeepSeek-R1是一个基于Transformer架构的因果语言模型，它在预训练阶段学习了大量的文本数据，从而具备了理解和生成自然语言的能力。与其他模型相比，DeepSeek-R1在处理长文本、语义理解和生成质量上具有独特的优势，尤其适用于对话系统、文本生成等任务。通过以上步骤，成功部署了DeepSeek-R1模型，并实现了一个简单的对话系统。在实际应用中，还可以进一步优化模型的性能，例如调整超参数、使用更高效的硬件等。

2025-02-24 19:30:00 109

原创构建医疗Mini DeepSeek R1：用强化学习训练

在当今快速发展的技术时代，大语言模型（LLMs）与医疗的结合带来了无限的机遇和独特的挑战。本文探索如何利用 Group Relative Policy Optimization（GRPO）——由 DeepSeek 团队最近引入的有前景的强化学习技术，来调整阿里巴巴的 Qwen-3B 模型，使其能够进行医疗推理。

2025-02-21 19:00:00 138

原创 DeepSeek的AHA 时刻使用 Unsloth（GRPO）训练自己的 R1 推理模型

2025 年 2 月 6 日，由丹尼尔迈克尔带来的消息，迎来了名为 Unsloth 的推理新方法。DeepSeek 的 R1 研究中有一个“啊哈时刻”，R1 - Zero 通过组相对策略优化（GRPO）在没有人类反馈的情况下自主学习，分配更多的思考时间。并且，我们对整个 GRPO 过程进行了增强，使其使用的 VRAM 比Hugging Face + FA2. 少 80%，这意味着可以使用 Qwen2.5（1.5B）在仅 7 GB 的 VRAM 上重现 R1 - Zero 的“啊哈时刻”。

2025-02-18 19:00:00 387

原创 DeepSeek - R1：模型架构深度解析

为了清楚理解MoE是什么，首先让我们看看它在Transformer中的确切使用位置以及其简要架构。标准Transformer层中的FFN被MoE所取代。MoE的核心是遵循标准的Transformer设计，但通过引入多个并行的专家网络（FFN）而不是单个密集的FFN来修改前馈层。多个FFN而非一个：MoE使用多个并行训练的FFN层（专家），而不是单个共享的FFN。输入处理和标记路由。

2025-02-17 19:15:00 1810