CloudStudio 公开课-DeepSeek R1 模型训练与优化实战

Cloud Studio既是面向广大代码创作者的云端集成开发环境(WebIDE)、也是人工智能与编程教学所用的“AI编码数字教室”。

CloudStudio “ AI 编码数字教室”为编程实训教师提供如下能力,符合教改核心方针,降低人工智能实训、编码教学的普及门槛,使规模化教学没有卡点。

  • 开箱即用的 CPU/GPU 算力空间, IDE 环境连接云上算力,可基于项目情况调整配置、开发并查看运行效果

  • 提供全功能云端 IDE ,预置 30 多种语言与 AI 模版,无需下载安装,随时随地进行编码,拥有流畅的编码体验

  • 具备持久化快速加载能力,云上文件存储保障开发文件随开随写,随时保存

教学管理支持,包括:云资源分配与管理、课程制作管理与分享;学生一键加入、作业行为数据上传分析

图片

  • 内置腾讯云 AI 代码助手,支持技术对话、 AI 内容生成,免登陆免费使用,实现 AI 助教、助学

  • 可标准化轻量集成至校方已有教学平台

CloudStudio 公开课

Cloud Studio 逐步推出有代表性优质课程,今天向大家分享《DeepSeek R1 模型训练与优化实战》,这套教程系统解析了DeepSeek R1推理模型的多阶段强化学习与监督微调技术框架,适合AI开发者和研究者掌握前沿大模型训练范式,实现复杂任务场景下的模型性能突破与低成本高效部署。

第一章:环境设置与数据准备

1.1 课程介绍

1.2 环境配置

1.3 训练数据集选择

第二章:模型架构与训练框架

2.1 DeepSeek R1 训练快速概述

2.2 选择基本模型

2.3 RL 策略模型(R)

第三章:GRPO 算法与训练流程

3.1 R1 Zero 的 GRPO 算法

3.2 提示模板

3.3 预处理训练数据

3.4 R1 Zero 训练配置

3.5 GRPO 训练循环

第四章:奖励函数设计

4.1 准确度奖励

4.2 赛制奖励

4.3 推理步骤奖励

4.4 余弦缩放奖励

4.5 重复惩罚奖励

4.6 保存 Tiny R1 Zero LLM

4.7 R1 Zero 的两个主要问题

第五章:监督微调(SFT)阶段1学习

5.1 Long CoT Few-shot

5.2 直接提示

5.3 后处理优化

5.4 SFT 阶段1(冷启动)

5.5 SFT Trainer 配置

5.6 阶段1训练循环

5.7 保存我们的小小R1模型

第六章:SFT 阶段2与后续优化

6.1 以推理为导向的强化学习

6.2 拒绝采样

6.3 SFT 阶段2后续训练

6.4 模型蒸馏

如何使用 CloudStudio 公开课

第一步

进入 cloudstudio.net ——【学习中心】——【DeepSeek R1 模型训练与优化实战】

图片

第二步

点击章节进入学习

图片

第三步

进入具体章节,例如【1.3 训练数据集选择】章节。如下图所示,学习者可以:

在【教案区域】观看教学内容

点击【下一节】查看下一节课程内容

使用 AI 代码助手进行代码解读

图片

图片

加入 Cloud Studio 自媒体特权计划

我们推出针对为 Cloud Studio 宣传的自媒体特权计划,招募长期合作的内容创作者,创作者将永久被授予 20000 分钟/月的基础版 GPU 使用配额。

20000分钟(333小时) 8+TFlops 算力、16GB+显存 的使用配额!什么概念!

可以系统化地利用 DeepSeek R1 模型实现从模型优化到实际落地的完整闭环。可生成数十万 10 万条营销文案、可提供稳定的高并发实时 API 服务。

心动吗?

还等啥呢?!

快来体验吧!!

参与方式

扫码联系工作人员进行登记初审:

图片

入选标准

● 拥有自媒体账号,且输出稳定

● 过往具备 Cloud Studio 相关分享经验,且具备干货内容

● 长期使用 Cloud Studio 进行工作、学习

希望创作者

1.  在 ide.cloud.tencent.com 平台上使用 DeepSeek 相关模板

2.  将实践经验以视频或文章的方式发布到任意媒体渠道(包括但不限于B站、抖音、小红书、个人博客等)。实践内容包含但不限于模型推理、创建知识库、构建个人应用等。每月至少分享两次。

注意:我们鼓励原创和真实,请不要抄袭、搬运他人内容。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值