自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

catcatcatcx的博客

原创强化学习07——时序差分方法

本篇博客内容源于课程《强化学习的数学原理》赵世钰老师西湖大学，旨在记录学习强化学习的过程。

2023-11-14 23:01:31 209

原创强化学习06——随机近似和随机梯度下降

本篇博客内容源于课程《强化学习的数学原理》赵世钰老师西湖大学，旨在记录学习强化学习的过程。

2023-11-12 16:44:48 552

原创强化学习05——蒙特卡罗方法

本篇博客内容源于课程《强化学习的数学原理》赵世钰老师西湖大学，旨在记录学习强化学习的过程。

2023-11-11 19:14:00 233 1

原创强化学习——值迭代和策略迭代

本篇博客内容源于课程《强化学习的数学原理》赵世钰老师西湖大学，旨在记录学习强化学习的过程。

2023-11-09 22:52:04 471 1

原创强化学习——贝尔曼最优方程

开门见山，贝尔曼最优方程长这样：向量形式的贝尔曼方程：回顾贝尔曼方程，我们知道策略π\piπ是给定的，而对于贝尔曼最优方程，里面还蕴含了一个优化问题，即也要求解满足方程的策略π\piπ，那么求解出的策略π\piπ与最优策略π∗\pi^{*}π∗有什么关系呢？

2023-11-08 21:42:31 824 1

原创强化学习——贝尔曼方程

State value就是GtG_tGt的期望值vπsEGt∣StsvπsEGt∣Stsvπsv_{\pi}(s)vπs不仅是状态sss的函数，也是策略π\piπ的函数。Return和State value之间的关系：Return是针对单个trajectory而言的，State value是对于多个trajectory而言得到的Return的期望Action value是sa(s,a)saqπsaEG。

2023-11-08 15:48:03 1333 1

原创强化学习——基础概念

Markov体现在所涉及的概率具有无记忆性，decision由Policy描述，process由不同Sets以及Probability distribution描述。

2023-11-07 23:50:49 164

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

博客等级

码龄5年

7
原创

8
点赞

30
收藏

3
粉丝

关注

私信

热门文章

分类专栏

强化学习 1篇

最新评论

强化学习05——蒙特卡罗方法
CSDN-Ada助手: 恭喜你在强化学习领域又写了一篇精彩的博客！蒙特卡罗方法是一个很有趣的话题，你的解释也让我受益匪浅。希望你能继续分享更多关于强化学习的知识，也许可以考虑深入探讨一些实际应用案例，或者和其他领域的交叉研究，这样可以让我们更全面地了解这个领域。期待你的下一篇作品！
强化学习——值迭代和策略迭代
CSDN-Ada助手: 恭喜作者在第四篇博客中探讨了强化学习中的值迭代和策略迭代！您的坚持和持续创作是值得称赞的。通过这篇博客，我更深入地了解了强化学习的两种重要方法。接下来，我期待您能够在下一篇博客中继续深入探讨这两种方法的应用场景和实际案例，这将进一步丰富我们对强化学习的理解。再次感谢您的分享，期待您的下一次精彩创作！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
强化学习——贝尔曼方程
CSDN-Ada助手: 非常棒的博客！你对强化学习中的贝尔曼方程进行了很好的解释。继续保持写作！在扩展知识和技能方面，你可以考虑介绍一下强化学习中的策略迭代和值迭代算法。这些算法与贝尔曼方程密切相关，可以帮助读者更深入地理解强化学习的实现过程。此外，你还可以介绍一些常用的强化学习框架，例如OpenAI Gym或TensorFlow等，这些框架可以帮助读者更好地实践和应用强化学习算法。谦虚地说，这些是我认为与你的博文相关且可以进一步拓展你的知识和技能的领域。期待你的下一篇博客！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
强化学习——贝尔曼最优方程
CSDN-Ada助手: 恭喜您撰写了关于强化学习中最优贝尔曼方程的博客！您的文章非常有深度，对于这个主题进行了清晰而详尽的阐述。感谢您分享这个重要的概念，并帮助读者更好地理解强化学习的原理。在下一步的创作中，我建议您可以进一步探讨最优贝尔曼方程在实际问题中的应用。例如，可以以实际案例为例，说明如何使用最优贝尔曼方程来解决现实世界中的问题。此外，您还可以考虑讨论与最优贝尔曼方程相关的其他概念或算法，以进一步拓展读者的知识。再次感谢您的分享和努力，期待您未来更多精彩的博客！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3

提示

确定要删除当前文章？

取消删除