强化学习点滴

最新推荐文章于 2022-02-21 21:42:07 发布

潜心修行的研究者

最新推荐文章于 2022-02-21 21:42:07 发布

阅读量266

点赞数

分类专栏：深度学习机器学习智能对话

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/h2026966427/article/details/90512215

版权

机器学习同时被 3 个专栏收录

21 篇文章 0 订阅

订阅专栏

17 篇文章 0 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

强化学习

Agent learns to take actions maximizing expected reward or expected cumulative reward per episode.

基于模型的方法
无模型的方法

首先得说一下这里的模型指的是什么。

model就是用来预测环境接下来会干什么，即在这一状态的情况下执行某一动作会达到什么样的状态，这一个动作会得到什么reward。所以描述一个模型就是用动作转移概率与动作状态reward。
公式如下：

$p(s_{t+1}|s_t,a_t)$ 和 $p(r_t|s_t,a_t)$ 。

无模型强化学习

一，策略网络

Learning an Actor： $\pi_{\theta} (s)$ .

一般过程如下：

定义模型actor的结构：神经网络。
目标函数：最大化每个episode的期望累积奖励 $R_{\theta}=\sum_{t=1}^{T}r_t$ 。一般先采样 $n$ 个episode，然后利用这 $n$ 个episode来计算 $R_{\theta}$ 的期望 $\hat{R_{\theta}}$ ，通过最大化 $\hat{R_{\theta}}$ 来最大化 $R_{\theta}$ 。其中，每个episode的形式为: $\tau=\{s_1,a_1,r_1,s_2,a_2,r_2,...,s_T,a_T,r_T\}$

$p(\tau|\theta)=p(s_1)\prod_{t=1}^{T}p(a_t|s_t,\theta)p(r_t,s_{t+1}|s_t,a_t)$

其中，只有 $p(a_t|s_t,\theta)$ 这一项与你的actor有关。

所以我们可以利用 $\pi_{\theta}$ 和 $p(\tau|\theta)$ 采样出N个 $\tau$ ，从而得到 $\hat{R_{\theta}}=\sum_{\tau}R(\tau)P(\tau|\theta)\approx\frac{1}{N}\sum_{n=1}^{N}R(\tau_n)$ 。

则最终的参数为： $\theta^*=argmax_\theta \hat{R_\theta}$ 。可以使用SGD来优化。

$\theta = \theta+\alpha\nabla\hat{R_\theta}$

其实 $\nabla\hat{R_\theta}$ 本质山是由策略梯度决定的，推导见纸质版。

最终结果为：

在这里插入图片描述

其中 $b$ 可以视为一个累积奖励的baseline。

二，估值网络

Learning a Critic,then found a best Actor from the Critic：Q-learning.

Critic

（1）state value function： $V^{\pi}(s)$

它的结构一般是一个的神经网络，输出一个标量，它的意思是在使用actor $\pi$ ，看到状态s之后的累积期望奖励值。

（2）state-action value function： $Q^{\pi}(s,a)$

它的结构一般也是一个的神经网络，输出一个标量，它的意思是在使用actor $\pi$ ，看到状态s，采取动作a之后的累积期望奖励值。

（3）估计 $V^{\pi}(s)$ 和 $Q^{\pi}(s,a)$ 的方法有：

基于MC的方法：The critic watches ? playing the game . $G_a$
时序差分(TD)方法： $V^{\pi}(s_{t+1})-V^{\pi}(s_t)=r_t$

各自的优缺点如下：

MC的方法是无偏的，但是方差大，而且学习时必须等到每个episode结束，所以学习速度很慢。
TD的不用等到每个episode结束再学习，它的速度很快，方差小，但是可能有偏差。

（4）Q-learning

在这里插入图片描述

三，策略网络与估值网络的融合：Actor-Critic即A3C

有模型强化学习

潜心修行的研究者

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。