强化学习-赵世钰-学习笔记-cumt

最新推荐文章于 2024-06-12 22:18:06 发布

程序员甜酱

最新推荐文章于 2024-06-12 22:18:06 发布

阅读量179

点赞数 1

文章标签：学习笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_65135190/article/details/134353992

版权

本次学习主要针对cumt《强化学习》这门课而针对性复习学习的。由于这门课只考前七章，因此复习也只包括前七章。

如果有时间可以在B 站观看赵世钰老师讲的课，非常详细

http://【【强化学习的数学原理】课程：从零开始到透彻理解（完结）】 https://www.bilibili.com/video/BV1sd4y167NS/?share_source=copy_web&vd_source=cc8f0c6e611501fdba9f6b458d5730c2

第一章基本概念

计算题-计算trajectory和return

A trajectory(轨迹) is a state-action-reward chain，如下图所示：

第二章贝尔曼方程

贝尔曼方程的一般形式和向量形式

计算题

第三章贝尔曼最优方程

贝尔曼最优方程的一般化形式和向量形式

计算题

贝尔曼方程和贝尔曼最优方程的差异

贝尔曼方程是贝尔曼最优方程的一种特殊情况
贝尔曼方程是用来求解state value 和 action value
贝尔曼最优方程说明了最优策略下各状态的价值一定等于这个状态下最优动作的期望回报

第四章值迭代和策略迭代

value iteration、policy iteration和truncated policy iteration之间的差异

value iteration和policy iteration是truncated policy iteration的两个极端情况。

第五章 MC

计算题

第七章时序差分算法

Sarsa、n-step Sarsa、MC的差异

相同点

不同点

on-policy和off-policy各是什么，各有什么优缺点

on-policy的优点：

它可以保证收敛到最优策略或者接近最优策略的结果，如果满足一定的条件（如足够多的探索）
它可以适应动态变化的环境，因为它总是使用最新的数据来更新策略

on-policy的缺点：

它可能陷入局部最优解，特别是当初始状态或动作选择不合理时

off-policy的优点：

可以同时利用探索和利用，因为它有两个策略；一个用于探索，一个用于利用，可以避免陷入局部最优解
可以更容易实现函数逼近和经验回放，因为它不依赖于当前的策略

off-policy的缺点：

难以保证收敛性和稳定性，特别是在非静态环境中

Q-learning算法on-policy和off-policy版本的伪代码

小结

强化学习可能是我本科课程最后一门纸质考试了，谨写本篇来记录我本科课程最后的纸质学习。本科的学习大部分是根据老师划的重点来学习，是速成学习。而研究生阶段的学习是钻研与某一领域，是细致的学习。作为一名小研0，希望自己能坐得住冷板凳，有做研究，搞学术，善于钻研的热情，成功毕业不焦虑！

程序员甜酱

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
强化学习-赵世钰-学习笔记-cumt

本次学习主要针对cumt《强化学习》这门课而针对性复习学习的。由于这门课只考前七章，因此复习也只包括前七章。如果有时间可以在B 站观看赵世钰老师讲的课，非常详细。
复制链接

扫一扫

程序员甜酱

CSDN认证博客专家 CSDN认证企业博客

码龄3年

7: 原创

76万+: 周排名

23万+: 总排名

2298: 访问

: 等级

78: 积分

7: 粉丝

6: 获赞

4: 评论

21: 收藏

私信

关注

热门文章

最新评论

强化学习-赵世钰-学习笔记-cumt
CSDN-Ada助手: “恭喜赵世钰学友在cumt的学习笔记中分享了强化学习的内容，持续创作是非常难能可贵的，希望您能够继续保持这样的学习热情和创作热情。下一步建议可以尝试结合实际案例或者个人经历，更加生动地展示强化学习的应用和实践，也可以增加一些对于未来发展的展望和思考，期待您的更多精彩内容。”
算法基础课之动态规划
CSDN-Ada助手: 恭喜您写出了第5篇博客，标题看起来非常有深度！动态规划是一种常用的优化算法，很值得深入学习。希望您能够继续保持创作的热情，分享更多优质的知识。我建议您可以尝试写一些实践性的文章，比如如何在实际项目中应用动态规划算法等，这样更能让读者受益。期待您的下一篇文章！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
算法基础课之搜索图论
CSDN-Ada助手: 恭喜您写了第6篇博客，题目也很吸引人。搜索图论是很重要的算法基础，对于入门学习算法来说是必不可少的。期待看到更多关于算法的分享，或许您可以尝试分享一些实战案例，让读者更加深入地理解算法的应用。再次感谢您的分享，期待您的下一篇作品。 CSDN 会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply6 看奖励名单。
算法基础课之贪心算法
CSDN-Ada助手: 恭喜您写了这篇关于贪心算法的博客！您的文章内容详实，讲解清晰易懂，让读者能够更好地理解贪心算法的基本原理和应用场景。接下来，建议您可以尝试结合实际案例介绍贪心算法的实战应用，或是深入剖析贪心算法的优缺点，以便读者能够更全面地了解贪心算法的应用和局限性。期待您的更多精彩创作！ CSDN 会根据你创作的前四篇博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply4 看奖励名单。

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。