【强化学习-2】马尔可夫过程 (MDP)

本文介绍了马尔可夫过程的基本概念,包括其客观规律和状态转移概率,以及马尔可夫决策过程(MDP)的定义,探讨了MDP中的关键要素如环境认知、状态转移的随机性和时齐性。文章还涉及MDP的期望回报计算和最佳策略求解,特别是在非时齐环境下。最后,将MDP应用到强化学习的不同场景中进行分类。
摘要由CSDN通过智能技术生成

一、马尔可夫概述:

一、马尔可夫过程:

具有客观规律,并随之而运动的系统,不受外界影响。P(S_{t+1}|S_{t}=S_{t})

给定条件概率P(S_{t+1}|S_{t}=S_{t}) 和初始状态分布P(S_{0}) 

\rightarrow可确定马尔科夫链的分布

\rightarrow求出所有P(S_{t} = s)

\rightarrow 马尔科夫链观测{S_{0},S_{1},S_{2},...,S_{n}}

\rightarrow 求出P (\tau = S_{0},S_{1},S_{2},...,S_{n})

二、马尔可夫决策过程 (MDP)

不断接受输入,受主观意志控制的系统

P (S_{t+1} | S_{t} = s_{t}, A_{t} = a_{t});

P (R_{t} | S_{t} = s_{t}, A_{t} = a_{t});

P (Done_{t} = done_{t} | S_{t} = s_{t});

可自由选择的A_{t}会影响S_{t}的分布

\rightarrow 求出P(S_{t} = s), P(A_{t} = a), P(R_{t} = r);

\rightarrow 求观测{s_{0}, a_{0}, r_{0}, s_{1}, a_{1}, r_{1}, s_{2},..., r_{n}};

三、MDP三问判断:

1.MDP是否知道环境?是否发生退化?

2. 状态转移关系是否具有随机性?

    状态转移关系是否具有时齐性?

3. MDP中动作与状态是否连续?是否随机?

四、时齐性:

即状态转移概率不随时间发生变化

P(X_{n} = j | X_{n-1} = i) = P(X_{m} = j |x_{m-1} = i)

时齐性意味着时间是相对的而不是绝对的 \Rightarrow 在求期望

E [X_{t+k} | X_{t} = x_{t}]时只用关注k等于多少,而不是关注t;

非时齐性(time - varing)

\rightarrow 时间具有绝对性

即状态转移概率会随时间变化。

时齐MDP:P (S_{n+1} = S' | S_{n} = s, A_{n} = a) = P (S_{m+1} = S' | S_{m} = s, A_{m} = a)

时齐指 S状态执行a后,进入下一状态s' 与时间无关 \rightarrow P_{ss'}^{a}

非时齐则有关 \rightarrow P_{ss'}^{a}(t);

二、马尔可夫决策过程:

一、基础概念

(S, A, P, R) \rightarrow (S, A, P, R, Done, \gamma)

S: 状态空间,S = {S_{1}, S_{2}, S_{3},...} 离散/连续;

A:动作空间 \Rightarrow 智能体可执行的动作

A = {a_{1}, a_{2}, a_{3}...} 离散/连续 A_{t}系统主观能动性部分 \Rightarrow 系统输入 input

P:状态转移关系,在状态S下采取动作a,转移状态S‘

概率记为 P_{ss'}^{a} = P(S_{t+1} = s | S_{t} = s,A_{t} = a);

R: 有限奖励集合 \Rightarrow 智能体给出的动作A后环境的反馈

\tau 适合奖励R_{t}记为 R_{s}^{a} = E(R_{t} | S_{t} = s, A_{t} = a);

R_{t}系统在t时刻采取动作带来的回报 \Rightarrow 系统输出 output

二、MDP因果关系

done = 0 MDP继续;done = 1 MDP终止;\Rightarrow (S, A, P, R, Done)

最大化的期望回报G_{t}, E(G_{t}) = E(R_{t}+R_{t+1}+R_{t+2}+...+R_{T})

若不收敛,引入衰减因子\gamma (0<\gamma<1) \gamma越小,性子越急;

\gamma <1 \rightarrow 智能体对应1. 高奖励;2. 速度快

\gamma <1 时,往往1.对应更复杂的问题;2.描述更复杂的情况;3. 更好的收敛

E(G_{t}) = E(R_{t} + \gamma R_{t+1} + \gamma ^{2}R_{t+2}+...) = E(\sum_{k=0}^{\infty }\gamma ^{k}R_{t+k})

三、最佳策略:

a* = \pi(s) \rightarrow P有随机性且环境时齐;

a* = \pi (s,t) \rightarrow P有随机性且环境非时齐;

非时齐时还可以定义R_{t}随时间衰减

时间是连续的,但我们假定t是离散化,保证t与t+1间隔足够短即可。

环境已知环境未知

退化

(一步)

环境已知的MAB

(平凡问题无需求解)

MAB问题

(如何产生数据集)

非退化

(多步)

多步最优控制问题

(如何求解最佳策略)

一般的强化学习问题

(同时考虑两方面)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值