【强化学习】Actor-Critic

最新推荐文章于 2024-04-13 14:00:00 发布

hey-yahei

最新推荐文章于 2024-04-13 14:00:00 发布

阅读量387

点赞数

文章标签：深度学习人工智能机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_20759449/article/details/106243364

版权

原文链接：https://www.yuque.com/yahei/hey-yahei/rl-actor_critic

参考：机器学习深度学习（李宏毅） - Actor-Critic

Actor with Critic

以policy-based的actor为主体，融入value-based的critic；
一般Policy Gradient的改进技巧在这里依旧同样适用

AC: Actor-Critic

回顾Policy Gradient，梯度的计算公式如下，
$\nabla \bar{R}_{\theta} \approx \frac{1}{N} \sum_{n=1}^{N} \sum_{t=1}^{T_{n}}\left(\sum^{T_n}_{t'=t} \gamma^{t'-t} r_{t'}^n - b \right) \nabla \log p\left(a_{t}^{n} | s_{t}^{n}, \theta\right)$
记 $G^n_t = \sum^{T_n}_{t'=t} \gamma^{t'-t} r_{t'}^n$ ，在实际训练过程中， $KaTeX parse error: Expected group after '_' at position 4: G^n_̲$ 是很不稳定的——这是因为G值很可能差异很大，而我们采样的数量却很少，容易采样到比较极端的数值。
所以我们会想到，能不能用稳定的 $KaTeX parse error: Expected group after '_' at position 4: G^n_̲$ 的期望 $E[G^n_t]$ 来替代采样的 $G^n_t$ 呢？答案显然是可以的，按照Q Learning的定义， $Q^{\pi_\theta}(s_t^n, a_t^n)$ 恰好就是这个期望，也即

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【强化学习】Actor-Critic

原文链接：https://www.yuque.com/yahei/hey-yahei/rl-actor_critic参考：机器学习深度学习（李宏毅） - Actor-CriticActor with Critic以policy-based的actor为主体，融入value-based的critic；一般Policy Gradient的改进技巧在这里依旧同样适用AC: Actor-Critic回顾Policy Gradient，梯度的计算公式如下，∇Rˉθ≈1N∑n=1N∑t=1Tn(∑t′=t
复制链接

扫一扫

hey-yahei CSDN认证博客专家 CSDN认证企业博客

码龄10年

32: 原创

31万+: 周排名

76万+: 总排名

7万+: 访问

: 等级

1005: 积分

35: 粉丝

55: 获赞

14: 评论

247: 收藏

私信

关注

热门文章

最新评论

移位量化（对数量化）
zisu5206: pn那里是不是应该是加号不是乘
CondConv：按需定制的卷积权重
太难了1: 应该是和卷积核相乘得那个数，也就是k
CondConv：按需定制的卷积权重
Allard_Ting: 我想问下这里提到的‘专家’名词指的是什么？是每个分支的模块吗？
CondConv：按需定制的卷积权重
a287902753: 您好，这篇文章CondConv看起来和Dynamic Convolution一样呀，根据不同的输入对多个卷积核采用不同的权重，然后对卷积核加权，得到最终用于计算的卷积核。有什么区别吗？
Winograd卷积原理
会飞的鱼呀: 是的，这里博主应该把输入的二维当成一维算了，一维是14

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。