机器学习-白板推导系列笔记（三十四）-MDP

最新推荐文章于 2021-03-17 15:22:46 发布

VIP文章及时行樂_

最新推荐文章于 2021-03-17 15:22:46 发布

阅读量449

点赞数 1

分类专栏：哔站机器学习白板推导文章标签：机器学习深度学习强化学习

本文链接：https://blog.csdn.net/qq_41485273/article/details/112397305

版权

此文章主要是结合哔站shuhuai008大佬的白板推导视频：马尔科夫决策过程_107min

全部笔记的汇总贴：机器学习-白板推导系列笔记

一、背景介绍

Random Variable： $X\;\;Y\;\;X\bot Y$
Stochastic Process： $\{S_t\}_{t=1}^\infty$
Markov Chain/Process，具有Markov Property的随机过程： $P(S_{t+1}|S_t,S_{t-1},\cdots,S_1)=P(S_{t+1}|S_t)$
State Space Model：（HMM，Kalman Filter，Particle Filter）Markov Chain+Observation
Markov Reward Process：Markov Chain+Reward
Markov Decision Process：Markov Chain+Reward+Action

$S:state\;set\rightarrow S_t\\A:action\;set,\forall s\in S,A(s)\rightarrow A_t\\R:reward\;set\rightarrow R_t,R_{t+1}$

在这里插入图片描述

二、动态特性

Markov Chain： $S$
MRP： $S, R$
MDP： $S, A (s), R, P （动态特性）$
在这里插入图片描述
$P:p(s',r|s,a)\triangleq Pr\{S_{t+1}=s',R_{t+1}=r|S_t=s,A_t=a\}$
状态转移函数：

$P(s'|s,a)\sum_{r\in R}P(s',r|s,a)$

三、价值函数

在这里插入图片描述
Policy： $\pi$ 表示

确定性策略： $a\triangleq \pi(s)$

随机性策略： $\pi(a|s)\triangleq Pr\{A_t=a|S_t=s\}$

回报：

最低0.47元/天解锁文章

及时行樂_

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
机器学习-白板推导系列笔记（三十四）-MDP

此文章主要是结合哔站shuhuai008大佬的白板推导视频：马尔科夫决策过程_107min全部笔记的汇总贴：机器学习-白板推导系列笔记一、背景介绍二、动态特性三、价值函数四、贝尔曼期望方程五、贝尔曼最优方程...
复制链接

扫一扫