四、Actor-Critic Methods

沈夢昂志

已于 2024-09-09 16:55:05 修改

阅读量376

点赞数 10

分类专栏： DRL深度强化学习文章标签： python 深度学习

于 2024-09-09 16:52:40 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sunsundayZ/article/details/142063290

版权

DRL深度强化学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

由于在看DRL论文中，很多公式都很难理解。因此最近在学习DRL的基本内容。

再此说明，非常推荐B站 “王树森老师的DRL 强化学习” 本文的图表及内容，都是基于王老师课程的后自行理解整理出的内容。

目录

A. 书接上回

1、Reinforce 算法

B. State-Value Function

C. Policy NetWork（Actor）

D. Action Value Network(Critic)

E.Train the Neural Networks

一、更新Neural Network的流程

F. Update Action Value network q using TD（Critic）

G.Update policy network Π using policy gradient（Actor）

H.总结 Actor-Critic Method

A. 书接上回

在上篇文章中谈到了如何计算QΠ

共分为两种方法

1、Reinforce 算法

但是其缺点是需要知道最后一轮的奖励，需要游戏玩完才能更新Policy网络

2、用神经网络近似Action-Value network QΠ

因此这样就有两个神经网络

1、Policy函数

2、Action-Value函数

其中Value-Based 是

Policy-Based是

因此本文所介绍的Actor-Critic网络是基于Policy和Value-Based之间的网络

B. State-Value Function

因此State-Value Function共分为两个模块

1、Policy Network(Actor)

2、Ation_Value Network(Policy)

C. Policy NetWork（Actor）

控制Agent执行什么运动

D. Action Value Network(Critic)

评价动作的好坏

E.Train the Neural Networks

一、更新Neural Network的流程

F. Update Action Value network q using TD（Critic）

G.Update policy network Π using policy gradient（Actor）

Policy gradient 是对State-Value Func V进行求导

具体的推导公式

H.总结 Actor-Critic Method

一点对上述总结的补充

关注

10
点赞
踩
9

收藏

觉得还不错? 一键收藏
打赏
0
评论
四、Actor-Critic Methods

一点对上述总结的补充。
复制链接

扫一扫

专栏目录

沈夢昂志 CSDN认证博客专家 CSDN认证企业博客

码龄4年

14: 原创

71万+: 周排名

7万+: 总排名

1万+: 访问

: 等级

278: 积分

98: 粉丝

133: 获赞

8: 评论

155: 收藏

私信

关注

热门文章

分类专栏

DRL深度强化学习 4篇
ROS机器人开发 1篇

最新评论

pycharm 配置pytorch虚拟环境
沈夢昂志: 您好，你可以进入pytorch官网，具体如下https://blog.csdn.net/sunsundayZ/article/details/133997469#comments_33136697。我看了一下里面有cuda11.1 您可以找一下
pycharm 配置pytorch虚拟环境
YWen L: 请问我的cuba是11.1的版本，但是pytorch没有低于这个版本的怎么办呢
ROS通信，如何查看话题的数据类型和传输自定义数据类型
CSDN-Ada助手: 恭喜你发布了第5篇博客！对于ROS通信这个复杂的主题，你总是能够深入浅出地解释，让读者受益匪浅。接下来，或许可以考虑分享一些实际应用场景中的ROS通信问题解决方案，或者深入探讨一些高级话题，给读者带来更多启发和帮助。期待你更多的精彩作品！
behavior tree 介绍
CSDN-Ada助手: 恭喜您写了第9篇博客，标题为“behavior tree 介绍”，内容相当丰富和有深度。不过我觉得您可以考虑在下一篇博客中加入一些实际案例或者应用场景，这样可以让读者更好地理解和运用behavior tree。希望您能继续保持创作，期待您更多的精彩内容！
lstm长短期神经网络
2301_80351591: 这个方法与我在剑桥的人工智能学院游学时见到的相似，有异曲同工之妙，阿历克斯教授和我说这是最佳的解决方案

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

沈夢昂志 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。