强化学习笔记

可姆可汗

已于 2023-11-22 19:01:07 修改

阅读量177

点赞数

分类专栏：强化学习文章标签：笔记

于 2023-11-22 09:31:23 首次发布

本文链接：https://blog.csdn.net/qq_42890800/article/details/134540702

版权

强化学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

本文概述了强化学习中的关键概念，包括状态、动作、策略、状态转移概率、即时奖励、马尔可夫决策过程、目标函数（特别是总回报和折扣回报）、以及价值函数（状态值函数和Q函数）和贝尔曼方程。文章介绍了如何用策略最大化期望回报，以及如何通过状态-动作值函数来评估智能体的决策性能。

摘要由CSDN通过智能技术生成

定义

这些定义均来自于《神经网络与深度学习》这本书

强化学习基本要素

状态s是对环境的描述，可以是离散的或连续的，其状态空间为 $\mathcal{S}$
动作a是对智能体行为的描述，可以是离散的或连续的，其动作空间为 $\mathcal{A}$
策略 $\pi(a|s)$ 使智能体根据环境状态s来决定下一步动作a的函数
状态转移概率 $p (s^{'} ∣ s, a)$ 使在智能体根据当前状态s做出一个动作a之后，环境在下一个时刻转变为状态s’的概率
即时奖励 $r (s, a, s^{'})$ 是一个标量函数，即智能体根据当前状态s做出动作a之后，环境会反馈给智能体的一个奖励，这个奖励也经常和下一个时刻的状态s’有关

确定性策略是从状态空间到动作空间的映射函数 $\pi : \mathcal{S} \rightarrow \mathcal{A}$ 。随机性策略表示在给定环境状态时，智能体选择某个动作的概率分布。
$\pi(a|s) \triangleq p(a|s) \\ \sum_{a\in \mathcal{A}} \pi(a|s) = 1$

马尔可夫决策过程

给定策略 $\pi(a|s)$ ，马尔可夫决策过程的一个轨迹
$\tau = s_0, a_0, s_1, r_1, a_1, \cdots, s_{T-1}, a_{T-1}, s_T, r_T$
的概率为
$p(\tau) = p(s_0,a_0,s_1,a_1,\cdots) \\ =p(s_0)\prod_{t=0}^{T-1}\pi(a_t|s_t)p(s_{t+1}|s_t,a_t)$
在这里插入图片描述

目标函数

给定策略 $\pi(a|s)$ ，智能体和环境一次交互过程的轨迹 $\tau$ 所收到的累积奖励为总回报
$G(\tau) = \sum_{t=0}^{T-1} r_{t+1} \\ =\sum_{t=0}^{T-1} r(s_t,a_t,s_{t+1})$

如果环境中没有终止状态（比如终身学习的机器人），即 $T=\infty$ ，称为持续式任务，其总汇报可能是无穷大。为了解决这个问题，引入一个折扣率来降低远期回报的权重。折扣回报定义为
$G(\tau)=\sum_{t=0}^{T-1}\gamma^t r_{t+1}$
其中 $\gamma \in [0,1]$ 是折扣率。当 $\gamma$ 接近于0时，智能体更在意短期汇报；而当 $\gamma$ 接近于1时，长期回报变得更重要。

强化学习的目标是学习到一个策略 $\pi_\theta(a|s)$ 来最大化期望回报，即希望智能体执行一系列的动作来获得尽可能多的平均回报。强化学习的目标函数为
$\mathcal{J}(\theta)=E_{\tau \sim p_\theta (\tau)}[G(\tau)]=E_{\tau \sim p_\theta (\tau)}[\sum_{t=0}^{T-1}\gamma^t r_{t+1}]$
其中 $\theta$ 为策略函数的参数。

值函数

状态值函数 $V^\pi (s)$ 表示从状态s开始，执行策略 $\pi$ 得到的期望总回报
$V^\pi(s) = E_{\tau \sim p(\tau)}[\sum_{t=0}^{T-1}\gamma^t r_{t+1}|\tau_{s_0}=s]$
其中 $\tau_{s_0}$ 表示轨迹 $\tau$ 的起始状态。

初始状态为s并进行动作a，然后执行策略 $\pi$ 得到的期望总回报，称为状态-动作值函数：
$Q^{\pi}(s,a)=E_{s'\sim p(s'|s,a)} [r(s,a,s') + \gamma V^\pi(s')]$
状态-动作值函数也经常称为Q函数。

公式

贝尔曼方程

根据马尔可夫性质， $V^\pi(s)$ 可展开得到贝尔曼方程，表示当前状态的值函数可以通过下个状态的值函数来计算
$V^\pi(s) = E_{a\sim \pi(a|s)}E_{s'\sim p(s'|s,a)}[r(s,a,s')+\gamma V^\pi (s')]$

Q函数

状态值函数 $V^\pi (s)$ 是Q函数 $Q^\pi (s,a)$ 关于动作a的期望，即
$V^\pi (s)=E_{a\sim \pi(a|s)}[Q^\pi (s,a)]$

Q函数的贝尔曼方程如下：
$Q^\pi (s,a) = E_{s'\sim p(s'|s,a)}[r(s,a,s')+\gamma E_{a'\sim \pi (a'|s')}{Q^\pi (s',a')}]$

可姆可汗

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
强化学习笔记

这些定义均来自于《神经网络与深度学习》这本书强化学习基本要素：状态s是对环境的描述，可以是离散的或连续的，其状态空间为SS动作a是对智能体行为的描述，可以是离散的或连续的，其动作空间为AA策略πa∣s\pi(a|s)πa∣s使智能体根据环境状态s来决定下一步动作a的函数状态转移概率ps′∣sap(s'|s,a)ps′∣sa使在智能体根据当前状态s做出一个动作a之后，环境在下一个时刻转变为状态s’的概率即时奖励rsas′r(s,a,s')rsa。
复制链接

扫一扫