强化学习-学习笔记

最新推荐文章于 2024-07-24 17:44:22 发布

「已注销」

最新推荐文章于 2024-07-24 17:44:22 发布

阅读量369

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/weixin_40937909/article/details/78669794

版权

机器学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

这个学习笔记和一般的强化学习的略有不同：不同于其他蛮多从现实出发举例子然后定义问题，本文选择从Bellman Equation 出发，然后偏数学的定义一个我们要解的最佳化问题，然后通过要怎么找到这个问题的解来引入一系列强化学习中常有的算法，稍微大概了解感性上的了解强化学习以后再看这一篇也许会对读者有一点帮助吧！

问题的定义

最佳化问题

强化学习，从某种程度上来说，是在解这样的一个问题：

max {x t} \infty t = 0 subject to \sum t = 0 \infty β t F (x t, x t + 1) x t + 1 \in Γ (x t) \forall t x 0 given

$\begin{equation*} \begin{aligned} & \underset{\{x_t\}^{\infty}_{t=0}}{\text{max}} & & \sum^{\infty}_{t=0}\beta^t F(x_t,x_{t+1})\\ & \text{subject to} & & x_{t+1} \in \Gamma(x_t) \space\space \forall t\\ &&& x_0 \space\space\space\text{given} \end{aligned} \end{equation*}$

就是给定了函数 $F$ 和 $x_0$ ，你需要找到 $x_1,x_2,...$ 使得 $\sum^{\infty}_{t=0}\beta^t F(x_t,x_{t+1})$ (下面称为式子 $[*]$ )最大，并且有限制如下： $x_{t+1}$ 是从 $\Gamma(x_t)$ 中选（请注意是 $\Gamma(x_t)$ 而不是 $\Gamma(x_t,x_{t-1}, ...,x_0)$ ！这意味着什么呢？）

那对应到强化学习的术语中，我们可以将这里的 $x_t$ 看成是时间 $t$ 时候的state，那我们相当于给定初始的状态，选择下一个状态以及下一个（强化学习中选择下一个状态大概相当于要选择一个action然后到下一个状态）。可以将 $F$ 看作是reward function :即从这个状态选择到下个状态，你会得到的reward 。

那如果你对这样的描述没有问题，我想你对强化学习的困惑应该已经少掉些了，因为这个问题显然是有解的，我只要遍历所有的可能就好啦！那显然这样不够有效率（但至少代表你可以解！）

递归问题

要如何从 $[*]$ 变到我们熟悉的强化学习的问题呢？恩，

V * (x 0) : = max {x 1, x 2, . . .} \sum t = 0 \infty β t F (x t, x t + 1)

$V^{*}(x_0) := \max_{\{x_1,x_2,...\}}\sum^{\infty}_{t=0}\beta^t F(x_t,x_{t+1})$
为了方便期间，我用

S k = max x k \sum t = k \infty β t F (x t, x t + 1)

$S_k=\max_{x_k}\sum^{\infty}_{t=k}\beta^t F(x_t,x_{t+1})$

如果假设我们现在已经选择了 $x_1$ ，那么

V * (x 0) = max {x 2, x 3, . . .} \sum t = 0 \infty β t F (x t, x t + 1) = F (x 0, x 1) + max x t \sum t = 1 \infty β t F (x t, x t + 1) = F (x 0, x 1) + max x t \sum t = 1 \infty β β t - 1 F (x t, x t + 1) = F (x 0, x 1) + β max x t \sum t = 1 \infty β t - 1 F (x t, x t + 1) = F (x 0, x 1) + β max x t \sum t = 0 \infty β t F (x t, x t + 1) = F (x 0, x 1) + β V * (x 1)

$\begin{equation*} \begin{aligned} V^{*}(x_0) &= \max_{\{x_2,x_3,...\}}\sum^{\infty}_{t=0}\beta^t F(x_t,x_{t+1})\\ &= F(x_0,x_1) + \max_{x_t}\sum^{\infty}_{t=1}\beta^t F(x_t,x_{t+1})\\ &=F(x_0,x_1) + \max_{x_t}\sum^{\infty}_{t=1} \beta\beta^{t-1} F(x_t,x_{t+1})\\ &=F(x_0,x_1) + \beta\max_{x_t}\sum^{\infty}_{t=1}\beta^{t-1} F(x_t,x_{t+1})\\ &=F(x_0,x_1) + \beta\max_{x_t}\sum^{\infty}_{t=0}\beta^{t} F(x_t,x_{t+1})\\ &=F(x_0,x_1) + \beta V^{*}(x_1) \end{aligned} \end{equation*}$

Finite Markov Decision Processes

找到问题的解

数学方法

好，我们现在已经把前面的问题转化为以下的问题了：

V (x) = subject to max x, y F (x, y) + β V (y) y \in Γ (x)

$\begin{equation*} \begin{aligned} V(x)= &&\max_{x,y}F(x,y)+\beta V(y)\\ \text{subject to}&& y \in \Gamma(x) \space\space \end{aligned} \end{equation*}$

那么要怎么解这个问题呢？这看起来虽然简单，但好像对于求解这个
我从这里看到的方法（略去了很多关于V 和 F 的假设）
我们