强化学习

最新推荐文章于 2024-03-13 23:02:28 发布

weixin_mm975247003

最新推荐文章于 2024-03-13 23:02:28 发布

阅读量588

点赞数 5

分类专栏：强化学习

本文链接：https://blog.csdn.net/fly975247003/article/details/92848416

版权

强化学习专栏收录该内容

12 篇文章 1 订阅

订阅专栏

强化学习原理入门-Day1

1、强化学习概念
2、特点
3、马尔科夫决策过程

1、强化学习概念

强化学习是智能体（Agent）以“试错”的方式进行学习，通过与环境进行交互获得的奖励指导行为，目标是使智能体获得最大的奖励。学习者不被高数采取哪一个行动，而是必须通过尝试找出哪些行为能带来最大的回报。action不仅影响立即回报，而且还会影响下一个状态，以及所有后来的回报，这是强化学习两个最重要的区分特征。强化学习的基本思想是简单地捕捉agent所面临的真实问题的最重要方面，并随着时间的推移与环境交互以实现目标。agent必须能够在一定程度上感知其环境的状态，并且必须能够采取影响该状态的行动。

上图中，agent在进行某个任务时，首先与environment进行交互，产生新的state，同时给出reword，这样循环下去，agent和environment不断进行交互，产生新的数据，再利用新的数据去修改自身的action，经过多次迭代之后，agent会学习到完成任务的最优策略。

2、特点

没有教师信号，也没有label，只有reword。
反馈有延时，不是立即返回。
数据是序列化的，数据与数据之间是有关的。
agent执行的动作会影响之后的数据

3、马尔科夫决策过程

3.1、马尔科夫性

概念： 系统的下一个状态 $s_{t+1}$ 仅与当前状态 $s_t$ 有关，而与以前的状态无关。
定义： 状态 $s_t$ 是马尔科夫的，当且仅当 $P[s_{t+1}|s_t] = P[s_{t+1}|s_1,...,s_t]$ 。
特点： 1）当前状态蕴含所有相关的历史信息。
2）一旦当前状态已知，历史信息将会被抛弃。

3.2、马尔科夫过程

马尔科夫过程就是一个二元组(S, P)，且满足：S是有限状态集，P是状态转移概率。状态转移概率矩阵为： $\left[ \begin{matrix} P_{11} & ... & P_{1n} \\ .... & ... & ... \\ P_{n1} & ... & P_{nn} \end{matrix} \right] \tag{3}$

3.3、马尔科夫决策过程

马尔科夫决策过程由五元组 $(S,A,P,R,{\gamma})$ 描述，其中： S：States的集合，A：Action的聚合， $P_{SS^{'}}^{a}$ ：状态转移概率，表示在状态s的情况下，执行动作a，然后转移到状态 $s^{'}$ 的概率（马尔科夫决策过程是包含动作的），其中 $P_{SS^{'}}^{a} =P[S_{t+1} = s^{'}|S_t=s, A_t=a]$ ，R：状态和动作到实数的映射，回报函数， ${\gamma}$ ：折扣因子，可用来计算累计回报。
1）马尔科夫奖励过程：
与马尔科夫过程相比，马尔科夫奖励过程(MRP)多了一个奖励函数以及一个折扣因子。
在这里插入图片描述
马尔科夫奖励过程(MRP)状态转移图：

考虑到Class2这一状态时的状态转移概率矩阵：

State	$C_1$	$C_2$	$C_3$	$P a s s$	$P u b$	$F B$	$S l e e p$
$R e w a r d$	-2	-2	-2	10	1	-1	0
$C_1$		0.5				0.5
$C_2$			0.8				0.2
$C_3$				0.6	0.4
$P a s s$							1
$P u b$	0.2	0.4	0.4
$F B$	0.1					0.9
$S l e e p$							1

马尔科夫决策过程(MDP)：
用于描述强化学习的马尔科夫过程是五元组 $M=<S,A,P,R,{\gamma}>$ ，强化学习的目标是给定一个马尔科夫决策过程，寻找最优策略。策略是状态到动作的映射，其表达式为： $\pi(a|s)=p[A_t=a|S_t=s]$ ,策略 $\pi$ 在每个状态s指定一个确定的动作。
当给定一个策略 $\pi$ 时，即可计算长期回报： $G_t=R_{t+1} + \gamma R_{t+2}+...=\sum_{k=0}^{\infty}\gamma^kR_{t+k+1}$ （各个step的即时奖励的折后和），由于策略 $\pi$ 是随机的，因此长期回报也是随机的。为了评价状态 $s_1$ 的价值，很自然的想到用长期回报来衡量，但是长期回报是一个随机值，无法描述，所以通过其期望作为状态值函数的定义。
计算一下长期回报， $S_1$ 从 $C_1$ 开始，到Sleep结束，折扣因子 $\gamma=\frac{1}{2}$ 。
在这里插入图片描述
1）状态值函数： 状态值函数就是累计回报 $G_t$ 的期望： $v_\pi(s)=E_\pi[G_t|S_t=s]$ （状态值函数是与策略向对应的，策略 $\pi$ 决定了累计回报G的状态分布）
2）状态行为值函数： Agent从状态s出发，采取a行动之后，获得的长期回报的期望。（这个action不一定是依据 $\pi$ 产生的。） $q_\pi(s,a)=E_\pi[\sum_{k=0}^{\infty}\gamma^kR_{t+k+1|S_t=s,A_t=a}]$ （仍然是累计回报的期望，但但是已知条件是s和a）
3）Bellman方程： 基本思想是对值函数进行递归分解。
状态值函数与状态行为值函数的贝尔曼方程：
在这里插入图片描述
状态值函数与状态动作值函数的贝尔曼方程：

weixin_mm975247003

关注

5
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
强化学习

强化学习原理入门-Day11、强化学习概念2、特点3、马尔科夫决策过程3.1、马尔科夫性3.2、马尔科夫过程3.3、马尔科夫决策过程1、强化学习概念强化学习是智能体（Agent）以“试错”的方式进行学习，通过与环境进行交互获得的奖励指导行为，目标是使智能体获得最大的奖励。学习者不被高数采取哪一个行动，而是必须通过尝试找出哪些行为能带来最大的回报。action不仅影响立即回报，而且还会影响下...
复制链接

扫一扫