- 博客(7)
- 收藏
- 关注
原创 强化学习——贝尔曼最优方程
开门见山,贝尔曼最优方程长这样:向量形式的贝尔曼方程:回顾贝尔曼方程,我们知道策略π\piπ是给定的,而对于贝尔曼最优方程,里面还蕴含了一个优化问题,即也要求解满足方程的策略π\piπ,那么求解出的策略π\piπ与最优策略π∗\pi^{*}π∗有什么关系呢?
2023-11-08 21:42:31
824
1
原创 强化学习——贝尔曼方程
State value就是GtG_tGt的期望值vπsEGt∣StsvπsEGt∣Stsvπsv_{\pi}(s)vπs不仅是状态sss的函数,也是策略π\piπ的函数。Return和State value之间的关系:Return是针对单个trajectory而言的,State value是对于多个trajectory而言得到的Return的期望Action value是sa(s,a)saqπsaEG。
2023-11-08 15:48:03
1333
1
原创 强化学习——基础概念
Markov体现在所涉及的概率具有无记忆性,decision由Policy描述,process由不同Sets以及Probability distribution描述。
2023-11-07 23:50:49
164
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人