自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 强化学习07——时序差分方法

本篇博客内容源于课程《强化学习的数学原理》 赵世钰老师 西湖大学,旨在记录学习强化学习的过程。

2023-11-14 23:01:31 209

原创 强化学习06——随机近似和随机梯度下降

本篇博客内容源于课程《强化学习的数学原理》 赵世钰老师 西湖大学,旨在记录学习强化学习的过程。

2023-11-12 16:44:48 552

原创 强化学习05——蒙特卡罗方法

本篇博客内容源于课程《强化学习的数学原理》 赵世钰老师 西湖大学,旨在记录学习强化学习的过程。

2023-11-11 19:14:00 233 1

原创 强化学习——值迭代和策略迭代

本篇博客内容源于课程《强化学习的数学原理》 赵世钰老师 西湖大学,旨在记录学习强化学习的过程。

2023-11-09 22:52:04 471 1

原创 强化学习——贝尔曼最优方程

开门见山,贝尔曼最优方程长这样:向量形式的贝尔曼方程:回顾贝尔曼方程,我们知道策略π\piπ是给定的,而对于贝尔曼最优方程,里面还蕴含了一个优化问题,即也要求解满足方程的策略π\piπ,那么求解出的策略π\piπ与最优策略π∗\pi^{*}π∗有什么关系呢?

2023-11-08 21:42:31 824 1

原创 强化学习——贝尔曼方程

State value就是GtG_tGt​的期望值vπsEGt∣Stsvπ​sEGt​∣St​svπsv_{\pi}(s)vπ​s不仅是状态sss的函数,也是策略π\piπ的函数。Return和State value之间的关系:Return是针对单个trajectory而言的,State value是对于多个trajectory而言得到的Return的期望Action value是sa(s,a)saqπsaEG。

2023-11-08 15:48:03 1333 1

原创 强化学习——基础概念

Markov体现在所涉及的概率具有无记忆性,decision由Policy描述,process由不同Sets以及Probability distribution描述。

2023-11-07 23:50:49 164

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除