note2Markov Decision Process(MDP)

最新推荐文章于 2023-07-17 16:33:06 发布

Loiser1

最新推荐文章于 2023-07-17 16:33:06 发布

阅读量106

点赞数

分类专栏：强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/loiser1/article/details/109251603

版权

强化学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

Markov Decision Process(MDP)

Markov Property:Just depend on current status

Markov Process/Markov Chain state transition matrix P : $p(s_{t+1}=s'|s_t=s)$

从一个节点到另一个节点的概率

Markov Reward Process(MRP):add reward weights

Horizon:steps in each episode

Return:discount(avoid cyclic避免无穷奖励，在近期得到奖励)

value function

Markov Reward Process

Bellman equation: $V(s)=R(s)+\gamma\sum_{s'\in S}P(s'|s)V(s')$

在这里插入图片描述

求解矩阵的复杂度过大，适用于小数据

一次轨迹一次采样，用于计算相应的 $V_t(s)$

value matrix计算方法:

(1)Monte Carlo Algorithm

(2)动态规划Bellman equation变成 bellman update （迭代计算）

Markov Decision Process

增加决策过程

$P(s_{t+1}=s'|s_t=s,a_t=a),a_t$ 表示当前采取的行为

相应的policy:

$\pi(a|s)=P(a_t|s_t)$

已知一个Markov奖励过程与policy $\pi$ ,则可以把马尔可夫决策过程转化为马尔可夫奖励过程。

Compare MP/MRP & MDP

在当前状态到下一个状态中加上了由agent控制的过程(依赖于policy的选取)

从而可以对MDP计算一个价值函数:对policy(t时刻采取各种行为对应的随机变量)求一个期望。

def:action-value function $q^\pi(s,a)=E_\pi[G_t|s_t=s,A_t=a]$

relation: $v^{\pi}(s)=\sum_{a\in A}\pi(a|s)q^\pi(s,a)$

Prediction & Control in MDP

Prediction:evaluate a given policy

Control:(search the optimal policy)

Dynamic Programming

Prediction:

给定policy function,简化成Markov Reward process

synchronous backup递归求 $v_{\pi}(s)$ ,此时给定policy的价值函数，递归过程是 $v_t(s)=f(v_{t+1}(s))$ 收敛到 $v^\pi(s)$

$v_{t+1}(s)=R^\pi(s)+\gamma P^\pi(s'|s)v_t(s')$

默认:价值函数只与状态有关

Optimal Value Function:

$v^*(s)=\underset{\pi}{max}\,v^{\pi}(s)$

$\pi^*(s)=\underset{v^*}{arg\,max}\,\pi(s)$

Find optimal policy:

1.Policy search(穷举)

2.MDP control,在infinte horizon情况下optimal policy 是deterministic

迭代过程:计算policy $\pi$ ,improve policy $\pi'=greedy(v^\pi)$

即policy与value之间进行循环迭代
在这里插入图片描述

这样的操作保证效果 $\uparrow$

Bellman optimality equation: $v^*(s)=max_aq^*(s,a)$

Value Iterate 对Bellman Optimality Equation 做迭代找到最佳策略

通过每一个状态迭代

man optimality equation: $v^*(s)=max_aq^*(s,a)$

Value Iterate 对Bellman Optimality Equation 做迭代找到最佳策略

通过每一个状态迭代
在这里插入图片描述

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
note2Markov Decision Process(MDP)

Markov Decision Process(MDP)Markov Property:Just depend on current statusMarkov Process/Markov Chain state transition matrix P :p(st+1=s′∣st=s)p(s_{t+1}=s'|s_t=s)p(st+1=s′∣st=s)从一个节点到另一个节点的概率Markov Reward Process(MRP):add reward weightsHorizon:steps
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。