强化学习笔记之Critic（三）

最新推荐文章于 2024-10-01 12:02:17 发布

vehicoder

最新推荐文章于 2024-10-01 12:02:17 发布

阅读量7k

点赞数 4

分类专栏：强化学习教程文章标签：强化学习人工智能算法机器学习神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u012680687/article/details/105512658

版权

教程同时被 2 个专栏收录

22 篇文章 7 订阅

订阅专栏

5 篇文章 7 订阅

订阅专栏

前面介绍了Actor的策略，接下来介绍Critic。

1. 什么是critic

critic就是一个神经网络，以状态s为输入，以期望的reward为输出。

1.1 Actor和Critic的区别

Actor是以s为输入，输出对应的action和其概率。
Criti则是以s为输入，输出对应的reward期望值。

1.2 为什么要有critic

在前面介绍Actor时，我们定义的用来更新θ的
$\triangledown\bar R_\theta=\sum_\tau R(\tau)\triangledown p_\theta(\tau)$
这其中 $R(\tau)$ 是machine与环境互动所获得的实际reward，这就导致具有很大的不确定性。因为machine采取什么样的动作是一种概率性的行为，而同一个动作，环境给予什么样的reward也是具有随机性的，这样将会导致machine的学习效率比较低下，就像没头苍蝇乱撞，可能学习很久都找不到正确的方向。所以我们要给machine一个正确的方向，即使用它的期望值代替实际的reward，期望值是可以被估算、计算的，这样就有利于我们去设计特定的函数来估算、计算期望的reward，从而引导我们的machine去做出我们想要的action。

1.3 critic和Q-Learning的区别

critic是只计算期望的reward，并不会根据这个reward选择action，而Q-Learning则会根据估算出来的reward选择最大的那个reward对应的action。

1.4 value-based和policy-based的区别

value-based是根据计算出来的期望reward，选择最大的期望reward所对应的action。典型代表Q-Learning。
policy-based是将计算出来的期望reward当作选择action的概率，期望的reward越大，对应的action被选中的概率也就越大，但不一定就会被选中，只是概率。典型代表Policy Gradient。

2. 如何获得Critic

非常简单，直接使用一个神经网络，以状态s为输入，value为输出即可。

3. critic怎么和actor结合

使用critic输出的value代替 $R(\tau)$ ，具体公式如下图，这就是A2C策略。
在这里插入图片描述

关注

4
点赞
踩
22

收藏

觉得还不错? 一键收藏
打赏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

vehicoder 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。