critic法计算_这可能是我见过的最好理解的Actor-Critic算法解释了

最新推荐文章于 2023-08-12 03:09:55 发布

文木禾

最新推荐文章于 2023-08-12 03:09:55 发布

阅读量2.4k

点赞数 1

文章标签： critic法计算

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_28853079/article/details/111964304

版权

我通俗解释一下actor-critic方法。

我用神经网络举例；实际上你可以用线性函数、kernel等等方法做函数近似。

Actor(玩家)：为了玩转这个游戏得到尽量高的reward，你需要实现一个函数：输入state，输出action，即上面的第2步。可以用神经网络来近似这个函数。剩下的任务就是如何训练神经网络，让它的表现更好(得更高的reward)。这个网络就被称为actor

Critic(评委)：为了训练actor，你需要知道actor的表现到底怎么样，根据表现来决定对神经网络参数的调整。这就要用到强化学习中的“Q-value”。但Q-value也是一个未知的函数，所以也可以用神经网络来近似。这个网络被称为critic。

Actor-Critic的训练。

我先通俗解释一下。

Actor看到游戏目前的state，做出一个action。

Critic根据state和action两者，对actor刚才的表现打一个分数。

Actor依据critic(评委)的打分，调整自己的策略(actor神经网络参数)，争取下次做得更好。

Critic根据系统给出的reward(相当于ground truth)和其他评委的打分(critic target)来调整自己的打分策略(critic神经网络参数)。

一开始actor随机表演，critic随机打分。但是由于reward的存在，critic评分越来越准，actor表现越来越好。

感觉有种类似GAN的感觉，两个网络在相互的碰撞，boom！

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
critic法计算_这可能是我见过的最好理解的Actor-Critic算法解释了

我通俗解释一下actor-critic方法。我用神经网络举例；实际上你可以用线性函数、kernel等等方法做函数近似。Actor(玩家)：为了玩转这个游戏得到尽量高的reward，你需要实现一个函数：输入state，输出action，即上面的第2步。可以用神经网络来近似这个函数。剩下的任务就是如何训练神经网络，让它的表现更好(得更高的reward)。这个网络就被称为actorCritic(评委)：...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。