JoyRL笔记(一)

一、马尔可夫决策过程

1.马尔可夫决策过程

马尔可夫决策过程是强化学习基础问题模型之一,主要描述智能体在与环境的交互过程中学到一个目标的过程,而这个目标大部分时候是最大化奖励。

马尔可夫性质是指在某个确定状态的未来只和当前状态有关,与历史的状态无关。

回报是交互过程中积累的最大化的奖励

折扣因子:权衡当前奖励和未来奖励,体现对未来的关注度

2.状态转移矩阵

在状态数有限时,状态之间切换的概率组合成的矩阵就是状态转移矩阵,而这个概率称为状态转移概率,状态转移概率通常简写成p\left ( s'\mid s \right ),同时状态转移矩阵是环境的一部分,和智能体没什么关系。

马尔可夫链:没有包含动作和奖励等元素的马尔可夫决策过程

马尔可夫奖励过程:在马尔可夫链的基础上加上奖励元素

二、动态规划

动态规划三大性质:

最优化原理:如果问题的最优解所包含的子问题的解也是最优的,就称该问题具有最优子结构

无后效性:某阶段状态一旦确定,就不受这个状态以后决策的影响,也就是马尔可夫性质

有重叠子问题:并非必要条件

1.状态价值函数、动作价值函数

1.1状态价值函数:

V\pi \left ( s \right )=E\pi \left [ Gt\mid St=s \right]

定义:从状态s开始,遵循策略π所能得到的策略回报

V(s)是状态s之后的动作序列上的累积奖励Gt的数学期望

Gt是带有折扣因子的累积回报

1.2动作价值函数:

Q_\pi(s, a)=\mathbb{E}_\pi\left[G_t \mid s_t=s, a_t=a\right]

定义:在状态价值函数的基础上加上动作元素

动作价值函数和状态价值函数的关系

V_\pi(s)=\sum_{a \in A} \pi(a \mid s) Q_\pi(s, a)

在状态s下,所有动作价值函数乘以动作的概率就等于状态价值函数,运用了全概率公式

2.贝尔曼方程:

2.1状态价值函数贝尔曼方程

\begin{aligned} V_{\pi}(s) & = R(s)+\gamma \sum_{s^{\prime} \in S} p\left(s^{\prime} \mid s\right) V_{\pi}\left(s^{\prime}\right) \end{aligned}

前一个状态的状态价值函数=奖励函数+后一个状态的状态价值函数*状态转移概率*折扣因子

2.2动作价值函数贝尔曼方程

Q_{\pi}(s,a) = R(s,a) + \gamma \sum_{s^{\prime} \in S} p\left(s^{\prime} \mid s,a\right) \sum_{a^{\prime} \in A} \pi\left(a^{\prime} \mid s ^{\prime} \right)Q_{\pi}\left(s^{\prime},a'\right)

前一个状态的动作价值函数=奖励函数R(s,a)+后一个状态的动作价值函数*状态转移概率*状态s'下选择动作a'的概率π(a',s')*折扣因子

3.策略迭代:

策略迭代分为2步:策略估计和策略改进

先根据策略π估计对应的状态价值函数V,再结合策略π推算出动作价值函数Q,并对Q函数优化,通常使用贪婪策略,取能收获最大收益的Q值来优化,再进行新一轮迭代,一轮一轮迭代,最后达到最佳策略和最优状态和动作价值函数

4.价值迭代:

直接通过公式来更新

V(s) \leftarrow \max _{a \in A}\left(R(s, a)+\gamma \sum_{s^{\prime} \in S} p\left(s^{\prime} \mid s, a\right) V\left(s^{\prime}\right)\right)

先将所有的状态价值初始化,然后不停地对每个状态迭代,直到收敛到最优价值V^{*},并且根据最优价值推算出最优策略\pi^{*}

通过借助策略,策略迭代跳过了价值迭代所要经过的所有点,所以策略迭代要比价值迭代要快

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值