DeepSeek-R1 Supervised finetuning and reinforcement learning (SFT + RL)

段智华

已于 2025-05-17 22:49:17 修改

阅读量215

点赞数

分类专栏： A2A MCP DeepSeek大模型智能体实战文章标签： DeepSeek A2A MCP Manus ADK

于 2025-05-17 22:47:52 首次发布

热烈祝贺Gavin大咖2024年北京航空航天大学两本新书《Transformer&ChatGPT解密：原理、源码及案例》、《Transformer& Rasa 解密: 原理、源码及案例》出版发行

本文链接：https://blog.csdn.net/duan_zhihua/article/details/148035260

版权

A2A MCP DeepSeek大模型智能体实战专栏收录该内容

30 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

DeepSeek-R1Supervised finetuning and reinforcement learning (SFT + RL)

好啊，我们今天的直播会非常透彻的跟大家系统性的分享一下整个agents AI就大模型智能体系统和应用程序。我们在做开发的时候，或者实际做企业级的产品落地的时候，你必须考虑的一些核心点。这个核心点包括我们在做整个大模型智能体的时候，它会涉及的一些关键问题。同时也包括基础模型、推理模型。当然在这个过程中会谈基础模型和推理模型很多不同的维度，比如说基础模型怎么去运行，尤其是它的decoding过程的一些算法，那推理模型的时候，我们会讲结合强化学习以及它具体的实现的不同的方式，都会跟大家比较系统的进行分享。我们之所以说这些东西是你无法绕过的一些部分，是因为他们构成了整个大模型智能体应用程序的底层的核心能力。
在这里插入图片描述

在这里插入图片描述

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

段智华 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。