强化学习笔记2-马尔科夫决策过程

最新推荐文章于 2022-10-28 23:46:46 发布

Lyra717

最新推荐文章于 2022-10-28 23:46:46 发布

阅读量363

点赞数

分类专栏： RL

本文链接：https://blog.csdn.net/weixin_39328611/article/details/113964356

版权

RL 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

Finite Markov Decision Processes(MDPs)

MDPs are a classical formalization of sequential decision making,
where actions influence not just immediate rewards, but also subsequent situations, or
states, and through those future rewards.
参考：Sutton R , Barto A . Reinforcement Learning:An Introduction[M]. MIT Press, 1998.

强化学习的任务

马尔科夫特性：与决策过程无关，只与状态有关
the probability of each possible value for St and Rt
depends only on the immediately preceding state and action, St−1 and At−1, and, given
them, not at all on earlier states and actions.

agent（include strategy和model）
环境提供state给agent，agent选择action 作用于环境，环境reward给agent…
通过不断改变action 最大化award

成分：

环境，黑盒只看得到输入输出，包含除agent以外的everything（agent无法任意改变的）
学习的agent，= learner and decision maker is called the agent
state，agent关于环境的observation 选择的basis
reward，single number（随时间改变） goal
strategy, state->action mapping
action, 展示选择，影响环境
最大的问题是长期过程中的most reward

假设（S,A,R）

时间离散（t=1,2,3，…）
状态空间离散且有限（可以很大但有限）
state是完全observable
state满足马尔科夫特性（知道past也no gain），那么问题来了，怎么让state有这种特性？
reward也是single number 在每个时间

公式化

时间：t =1,2,3…
状态： $s_{t} \in S$
action: $a_{t} \in A$
reward: $r_{t} \in R$
stategy(policy)：

deterministic $\pi :S->A$ (order a single state to action)
stochastic(trial or error):
$\pi(s,a)=(\pi(a|s))$ 条件概率 given s,选择action a 的概率， $\pi : S \times A ->[0,1]$

交互
s1->a1->s2->…->st->at

通过环境的dynamics建模，transition probabilities： $P_{r}(s_{t+1}|s_{1},a_{1},....,s_{t},a_{t})$
rewards: $R(s_{1},a_{1},.....,s_{t},a_{t})$ 在time t的reward（depend on the whole history）
goal：最大化expected long-term reward： $E_{\pi}(r_{1}+r_{2}+....)$ 取决于a,s,tran prob.

马尔科夫-assumption

不计算past

动态环境由transition probability 矩阵给出： $P_{r}(s_{t+1}|s_{1},a_{1},....,s_{t},a_{t})=P_{r}(S_{t+1}|s_{t},a_{t})$
即时reward： $R(s_{1},a_{1},.....,s_{t},a_{t})=R(s_{t},a_{t})$
即， $P(s,a,s')=P_{r}(s'|s,a)$ , 任意s,s’,a

两种task
1 epizodic（fixed time）
2 non epizodic(non-fixed time)

目标是optimize expression $E_{\pi}(r_{1}+r_{2}+....)$ ，在stochastic环境中agent学习得到stochastic action选择，在计算平均。

是连续任务，问题是 $\sum_{t=0}^{\infty}r_{t}$ 可能会无穷，发散,所以引入discouting factor $\lambda$ ,即， $\sum_{t=0}^{\infty}\lambda ^{t}r_{t}$ . $\lambda<1$ 的情况下是有限的
这个discounting方法很有用，也可以用在固定时间的任务上。

RL model（MDPS）

马尔科夫决策过程也可以用一个元组(S,A,P,R,s0,γ)来表示。

S是决策过程中的状态集合；
A是决策过程中的动作集合；
P（ $\times A \times S$ ）是状态之间的转移概率transition prob.,[0,1]；
s0是初始状态
R( $S\times A$ )是采取某一动作到达下一状态后的回报(也可看作奖励)值，属于实数范围；
γ是折扣因子。
cr：https://blog.csdn.net/unixtch/article/details/78922936

解 MDPs

环境根据 P 和 R 来make a step: $s_{t+1}\sim P(s_{t},a_{t});r_{t+1} \sim R(s_{t},a_{t})$
代理根据 $\pi$ (strategy)来make a step: $a_{t}\sim \pi(s_{t},.)$
$\pi$ (strategy)最优，当 $E_{\pi}(r_{1}+\lambda r_{2}+\lambda^{2}r_{3}....)$ 最大