笔记：ML-LHY-23: Deep Reinforcement Learning

最新推荐文章于 2022-09-27 16:34:21 发布

snoopy_21

最新推荐文章于 2022-09-27 16:34:21 发布

阅读量245

点赞数

分类专栏：笔记机器学习李宏毅ML课程笔记

本文链接：https://blog.csdn.net/qq_29598161/article/details/109347500

版权

笔记同时被 3 个专栏收录

68 篇文章 7 订阅

订阅专栏

机器学习

32 篇文章 0 订阅

订阅专栏

李宏毅ML课程笔记

31 篇文章 4 订阅

订阅专栏

介绍强化学习的概念
介绍Policy-based Approach算法，关键在于如何理解用采样近似求期望。
pdf 视频1 视频2

Scenario of Reinforcement Learning

强化学习大致流程
在这里插入图片描述

强化学习：
输入：Observation(State)
Actor/Policy 产生Action
输出：Action (改变环境)
环境反馈 Reward

Policy-based Approach

在这里插入图片描述
参照机器学习3个步骤：

Step 1: define a set of function (Neural network as Actor)

在这里插入图片描述
输入：图像最后转向量或者矩阵输入
输出：对应输入的action

使用神经网络的好处：

输入总有输出
NN的特性，比如CNN还有最大池化这些
所以是比较泛化(generalization)的

Step 2: goodness of function

常规分类器的loss定义，也就是决定好坏
在这里插入图片描述

强化学习的loss是在参数 $\theta$ 时的总反馈 $R_{\theta}$ (reward)
在这里插入图片描述

但是就算 $\theta$ 一样，但是 $R_{\theta}$ 每次并不一样，导致的原因：

环境具有随机性
Actor也具有随机性

所以是希望得到总反馈的期望 $\bar{R}_{\theta}$

具体步骤可以描述为：
在这里插入图片描述

上面：求期望可以近似为采用N次取平均

Step 3: pick the best function

强化学习的loss是总反馈，所以是期望越大越好，所以要做梯度上升(Gradient Ascent)
在这里插入图片描述
关键就是怎么对 $\bar{R}_{\theta}$ 求导？

其实也就是：
$\frac{\nabla P(\tau \mid \theta)}{P(\tau \mid \theta)} =\frac{1}{P(\tau \mid \theta)} \frac{d P(\tau \mid \theta)}{d \theta} = \frac{d log(P(\tau \mid \theta))}{d \theta} = \nabla \log P(\tau \mid \theta)$

然后也是通过采样N次来近似，注意到最后的近似结果可以写成如下形式：
$\nabla \bar{R}_{\theta} = \frac{1}{N} \sum_{n=1}^{N} R\left(\tau^{n}\right) {\nabla \log P\left(\tau^{n} \mid \theta\right)} = \frac{1}{N} \sum_{n=1}^{N} R\left(\tau^{n}\right) \frac{\nabla P(\tau \mid \theta)}{P(\tau \mid \theta)}$
上面的式子本应该：
$R\left(\tau^{n}\right)$ 为正，梯度向上
$R\left(\tau^{n}\right)$ 为负，梯度向下

为什么要除以 $P(\tau \mid \theta)$ ？
除以 $P(\tau \mid \theta)$ 是防止反馈少但是出现次数多的 $\theta$

现在的问题变成求： $\nabla \log P(\tau \mid \theta)$

而 $P(\tau \mid \theta)$ 可以变为 $p\left(s_{1}\right) \prod_{t=1}^{T} {p\left(a_{t} \mid s_{t}, \theta\right) p\left(r_{t}, s_{t+1} \mid s_{t}, a_{t}\right)}$
在这里插入图片描述
发现有和 $\theta$ 无关的项，刚好我们的目标函数是对： $\log P(\tau \mid \theta)$ 求导
所以最后

在这里插入图片描述
总结起来就是这样：

在这里插入图片描述
和什么要除以 $P(\tau \mid \theta)$ 一样的原因除以 $p\left(a_{t}^{n} \mid s_{t}^{n}, \theta\right)$ ，注意：
$\frac{\nabla p\left(a_{t}^{n} \mid s_{t}^{n}, \theta\right)}{p\left(a_{t}^{n} \mid s_{t}^{n}, \theta\right)} = \nabla \log p\left(a_{t}^{n} \mid s_{t}^{n}, \theta\right)$

总之最后的梯度表达式为：

$\nabla \dot{R}_{\theta}= = \frac{1}{N} \sum_{n=1}^{N} \sum_{t=1}^{T_{n}} R\left(\tau^{n}\right) \nabla \log p\left(a_{t}^{n} \mid s_{t}^{n}, \theta\right)$