深度强化学习：（一）马尔科夫决策过程

最新推荐文章于 2024-09-01 17:39:26 发布

Warship_

最新推荐文章于 2024-09-01 17:39:26 发布

阅读量876

点赞数

分类专栏：深度强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Warship_/article/details/104395071

版权

深度强化学习专栏收录该内容

9 篇文章 0 订阅

订阅专栏

一、马尔科夫过程

1.马尔可夫性

如果P[St+1|St] = P[St+1|S1,...,St]，即系统下一状态St+1只与当前状态St有关，则称为Markov性。

2.状态转移概率

P是状态转移概率矩阵，每一行的概率和为1。

3.马尔科夫过程

Markov Process由<S，P>组成，S是有限状态集，P是状态转移概率矩阵

二、马尔科夫奖励过程

1.表示方法

MRP由<S，P，R，γ>组成，加了policy π后MRP格式改变成。

回报函数，是当前状态所获得的回报的数学期望（类似于取平均值）。前面写过RL中t+1是在agent做出action后发生的，仍旧是当前状态下，即意思是不管在这个状态下做什么action，Rs=Rt+1都一定的。

γ是一个未来对现在影响的数学上的表达，γ=0，完全短视不考虑未来，γ=1，undiscount未来的所有状态都考虑。γ的加入主要是因为一是会削弱MP中环的影响，二是模型对未来的估计不一定准确。

2.累计回报

累计回报Gt，，这里是求和的是在t时刻随机采样产生的一系列状态点。

3.状态值函数

value function可以换一种写法，类似于采样所有s状态下的Gt取平均值。

4.状态值函数的贝尔曼方程

即可以将value function看做immediate回报Rt+1和下一个状态的价值discount后的和

举例如下图的MP过程图中，每个节点就表示当前状态s，里面数字是v(s)。比如v(s)=4.1的节点，求法是0.6*（-2+0.9*10）+0.4*（-2+0.9*1.9）=4.084，并且4.084≈4.1说明此时已经达到self-consistant状态。

三、马尔科夫决策过程

1.表示方法

MDP的格式<S，A，P，R，γ>，从此P和R都加入了a的影响

2.策略policy

π(a|s)=P[At = a | St = s]）

3.状态-行为值函数

4.状态-行为值函数的贝尔曼方程

比如在下面这个例子中，7.4这个节点的v(s)更新方法如下 —— 现在已经self-consistant，每个action默认概率相同。

四、最优值函数与最优策略

最优值函数与最优策略为什么等价？

要解释这个问题，首先需要澄清最优价值函数与最优策略的具体含义。

最优价值函数是说，对于某个状态S，选择一个策略π使得Vπ（S）达到最大，即

Vπ（S）≥Vπ'（S）；

而最优策略是说，某个策略π，对于任意状态s，都有Vπ（s）≥Vπ‘（s）;

反证法：这里对于最优策略π，即存在在状态S处Vπ（S）≥Vπ’（S）；假设最优策略与最优价值函数不等价。那么有在状态S处，最优价值函数不等于Vπ（S），应该为Vπ‘（S）。这与最优策略π的含义：Vπ（S）≥Vπ’（S）矛盾。因此二者是等价的。

1.最优值函数

从最开始引入值函数的概念入手，值函数是用来评估S1的价值，假设我们每一点都选择最具有价值的action来走的话，那最后的就是最优的policy

最优状态值函数υ* （s）为在所有策略中值最大的值函数

最优状态-⾏为值函数q* （s，a）为在所有策略中最⼤的状态-⾏为值函数

最优状态值函数和最优状态-动值函数的⻉尔曼最优⽅程：

2.最优策略

若已知最优状态-动作值函数，最优策略可通过直接最大化q* （s，a）来决定，即贪婪策略

贪婪策略

贪婪策略是⼀个确定性策略，即只有在使得动作值【动作值函数或者称他为行为值函数】函数q* （s，a）最⼤的动作处取概率1，选其他动作的概率为0

或ε-greedy策略

后面的参数和这样的意义应该是一样的，因为这里都是动作值函数

ε-greedy策略是强化学习最基本最常⽤随机策略。其含义是选取使得动作值函数最⼤的动作的概率为

其余为：

ε-greedy平衡了利⽤（exploitation）和探索（exploration），其中选取动作值函数最⼤的部分为利⽤，其他⾮最优动作仍有概率为探索部分。

......

五、总结

1.首先利用贝尔曼期望方程，对某一特定策略求其值函数和行为值函数，即对某一策略的估计，

如Q表

2.利用贝尔曼最有方程，寻找最优策略，是非线性函数，求解方法包括值迭代、策略迭代、Q-learning、Sarsa等

Warship_ CSDN认证博客专家 CSDN认证企业博客

码龄7年

15: 原创

46万+: 周排名

87万+: 总排名

2万+: 访问

: 等级

304: 积分

2: 粉丝

12: 获赞

3: 评论

37: 收藏

私信

关注

热门文章

分类专栏

深度强化学习 9篇
算法
Unity3D 1篇
java Web 4篇
数据库 2篇
C++ 1篇
人工智能 8篇

最新评论

运行Pangolin时提示以下错误： terminate called after throwing an instance of 'std::runtime_error'
商衡: 谢谢你！能正常使用了！
Unuty3D开发ai2thor
m0_46267607: [code=python] 作者您好，我准备修改相关的代码，实在不清楚location ids (navigation targets)怎么获取，还请您多多指教，十分感谢！ TASK_TYPE = 'navigation' # no need to change # keys are scene names, and values are a list of location ids (navigation targets) TASK_LIST = { 'bathroom_02' : ['26', '37', '43', '53', '69'], 'bedroom_04' : ['134', '264', '320', '384', '387'], 'kitchen_02' : ['90', '136', '157', '207', '329'], 'living_room_08' : ['92', '135', '193', '228', '254'] } [/code]
Unuty3D开发ai2thor
m0_46267607: 作者您好，我准备修改相关的代码，实在不清楚location ids (navigation targets)怎么获取，还请您多多指教，十分感谢！ TASK_TYPE = 'navigation' # no need to change # keys are scene names, and values are a list of location ids (navigation targets) TASK_LIST = { 'bathroom_02' : ['26', '37', '43', '53', '69'], 'bedroom_04' : ['134', '264', '320', '384', '387'], 'kitchen_02' : ['90', '136', '157', '207', '329'], 'living_room_08' : ['92', '135', '193', '228', '254'] }

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。