DeepSeek-R1 Supervised finetuning and reinforcement learning (SFT + RL)

DeepSeek-R1Supervised finetuning and reinforcement learning (SFT + RL)

好啊,我们今天的直播会非常透彻的跟大家系统性的分享一下整个agents AI就大模型智能体系统和应用程序。我们在做开发的时候,或者实际做企业级的产品落地的时候,你必须考虑的一些核心点。这个核心点包括我们在做整个大模型智能体的时候,它会涉及的一些关键问题。同时也包括基础模型、推理模型。当然在这个过程中会谈基础模型和推理模型很多不同的维度,比如说基础模型怎么去运行,尤其是它的decoding过程的一些算法,那推理模型的时候,我们会讲结合强化学习以及它具体的实现的不同的方式,都会跟大家比较系统的进行分享。我们之所以说这些东西是你无法绕过的一些部分,是因为他们构成了整个大模型智能体应用程序的底层的核心能力。
在这里插入图片描述

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

段智华

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值