深度强化学习研究笔记（1）——入门（马尔科夫决策过程，贝尔曼方程，价值迭代和策略迭代）

最新推荐文章于 2024-08-04 21:48:35 发布

越野者

最新推荐文章于 2024-08-04 21:48:35 发布

阅读量4.9k

点赞数 7

分类专栏：深度学习（Deep learning）强化学习（Reinforcement learning）文章标签：强化学习深度学习学习笔记

本文链接：https://blog.csdn.net/discoverer100/article/details/88266631

版权

这篇博客介绍了强化学习的基础，包括马尔科夫决策过程（MDP）、贝尔曼方程及两种求解方法：价值迭代和策略迭代。通过MDP模型描述了强化学习问题，探讨了价值函数、奖励和价值迭代、策略迭代的计算过程，为理解深度强化学习奠定了基础。

摘要由CSDN通过智能技术生成

1. 强化学习（Reinforcement learning）概述

强化学习（Reinforcement learning）的基本内涵是将问题用代理（Agent，有的地方也将其翻译为智能体）和环境进行建模。其中代理能够对环境执行一些特定的动作 $\in A$ ，从而到达某个状态 $\in S$ ，然后我们就可以根据该状态为代理赋予特定的奖励 $r$ 。强化学习的基本思想如下图所示：
在这里插入图片描述

代理的目标是最大化未来的奖励总和，它通过将未来可获得的最大奖励添加到当前的奖励来实现这一点（类似于贪心算法），从而通过潜在的奖励影响当前行动（e.g., 假设知晓未来好好读书就能考上好大学从而使个人将来发展更加顺利，那么从高一开始就会好好学习）。这个潜在奖励（Value）是从当前状态开始的所有未来动作的奖励期望值的加权和。

通常人们用马尔科夫决策过程（Markov decision process，MDP） 来描述强化学习问题，一个基本的MDP问题可以用一个五元组 $\left( {S,A,P,R,\gamma } \right)$ 来表示，各个符号的含义如下所示：

$S$ 表示有限状态集。
$A$ 表示有限动作集。
$P$ 表示状态转移概率矩阵（e.g., 高三努力学习，从年级前100名到年级前20名的概率）。
${P_a}\left( {s,s'} \right) = P\left( {\left. { {s_{t + 1}} = s'} \right|{s_t} = s,{a_t} = a} \right)$ 表示在状态 $s$ 下执行动作 $a$ 后，从状态 $s$ 转移到 $s^{'}$ 的概率。
$R$ 表示奖励（Reward）函数。 ${R_a}\left( {s,s'} \right)$ 表示在状态 $s$ 下执行动作 $a$ 后，从状态 $s$ 转移到 $s^{'}$ ，所得到的奖励。
$\gamma$ 表示折扣因子，该因子主要用于平衡当前的奖励与未来的奖励，可以理解为权重。一般会把未来奖励的权重调低一点。

这样，MDP的目标就是找到一种策略 $\pi (s)$ ，使得代理在状态 $s$ 下能够做出对应的动作 $a$ ，使得回报（Return） $G_t$ 能够达到最大：

$\begin{aligned} {G_t} &= {R_{t + 1}} + {\gamma ^1}{R_{t + 1}} + {\gamma ^2}{R_{t + 2}} + \ldots \\ &= \sum\limits_{k = 0}^\infty { {\gamma ^k}{R_{t + k + 1}}} \\ \end{aligned} \tag {1}$