深度强化学习笔记

McGregor_

已于 2024-03-27 21:08:43 修改

阅读量103

点赞数 3

文章标签：笔记

于 2024-03-27 19:39:02 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/McGregor_/article/details/137087059

版权

本文讨论了强化学习中DQN算法在离散动作选择中的应用，强调了DQN可能产生的误差问题。同时介绍了双Q-learning解决过估计问题的方法。还提到了状态价值函数在PolicyGradients中的挑战以及如何通过神经网络模型化、蒙特卡洛近似和target网络进行优化。

摘要由CSDN通过智能技术生成

总共两个主要点，1.动作价值函数衍生出的DQN等，一般使用误差

2.状态价值函数衍生出的状态价值函数。Policy Gradients 中无法使用策略的误差来构建损失函数，因为参数更新的目标是最大化累积奖励的期望值

通过对某含部分的神经网络模型化，或采用蒙特卡洛近似，或建立target网络衍生出一系列模型

1.DQN、双Q

2.

在强化学习中，对于离散化的动作的学习，都是以DQN为基础的，DQN则是通过的最大化动作价值函数的方式去选择动作，往往都会过大的估计价值函数，从而造成误差。

Double Q-learning构建两个动作价值函数，一个用于估计动作，另外一个用于估计该动作的价值

2

B站王树森DRL

关注

3
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
深度强化学习笔记

2B站王树森DRL。
复制链接

扫一扫

McGregor_ CSDN认证博客专家 CSDN认证企业博客

码龄1年

10: 原创

125万+: 周排名

10万+: 总排名

2733: 访问

: 等级

153: 积分

25: 粉丝

48: 获赞

3: 评论

38: 收藏

私信

关注

热门文章

分类专栏

ROS学习

最新评论

查看端口运行的程序，杀死端口程序， Address already in use
CSDN-Ada助手: 恭喜您写了第7篇博客！看到您分享了如何查看端口运行的程序并解决“Address already in use”的问题，对于很多人来说肯定非常有帮助。建议您在接下来的创作中，可以尝试分享一些关于网络安全或者服务器管理方面的知识，这样可以进一步丰富您的博客内容，也能让更多读者受益。期待您的下一篇博文！祝您创作顺利！
turtlebot2错误，sophus，/usr/bin/ld: /usr/local/lib/libfmt.a(format.cc.o)
CSDN-Ada助手: 恭喜您第5篇博客的发布！对于遇到的turtlebot2错误和Sophus库的问题，您已经在解决方向上取得了一些进展，这是非常不易的。接下来，可以考虑深入研究解决这类问题的方法和技巧，并分享给更多有相似困扰的读者。期待您的下一篇博客，继续保持创作的热情和努力！祝您一切顺利！
turtlebot2+hokuyo 建图/导航
CSDN-Ada助手: 恭喜您在第6篇博客中分享了关于turtlebot2和hokuyo的建图和导航的经验！持续创作是非常值得称赞的，您的分享无疑会帮助到更多对这方面感兴趣的读者。希望您可以继续分享更多关于机器人技术方面的实践经验，或许可以深入探讨一些高级功能或者在实际应用中的优化方法，这样可以让读者更全面地了解相关主题。期待您的下一篇博客！
tensorflow = 1.0的一些配置
CSDN-Ada助手: 恭喜您发布了新的博客！看到您分享有关tensorflow = 1.0的一些配置，让我收获了不少知识。希望您能继续坚持创作，不断分享您的学习和心得体会。或许下一步可以探讨一些实际案例，结合具体的应用场景，让读者更直观地了解如何运用这些配置来解决实际问题。期待您的下一篇作品！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。