强化学习(一)

最新推荐文章于 2024-02-22 08:46:18 发布

有一个进大厂的梦想

最新推荐文章于 2024-02-22 08:46:18 发布

阅读量263

点赞数 1

分类专栏：强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43146317/article/details/111447499

版权

强化学习专栏收录该内容

7 篇文章 1 订阅

订阅专栏

强化学习(一)

什么是强化学习

强化学习（Reinforcement Learning, RL），又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一，用于描述和解决智能体（agent）在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。

强化学习算法类别

通过自己对强化学习算法的理解大至可分为在这里插入图片描述
基于模型与不基于模型的两种，我们着重讲不基于模型的算法。分为Q_Learning家族和Policy Optimization家族,就是值策略和梯度策略。
经典的DQN，PG，两个不同的算法，前者处理离散的动作，后者处理连续的动作。
关于算法设计到的理论公式，这个博主写的很清楚，我主要是讲算法的实现，算法过程。

有一个进大厂的梦想

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
强化学习(一)

强化学习(一)什么是强化学习强化学习（Reinforcement Learning, RL），又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一，用于描述和解决智能体（agent）在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。强化学习算法类别通过自己对强化学习算法的理解大至可分为基于模型与不基于模型的两种，我们着重讲不基于模型的算法。分为Q_Learning家族和Policy Optimization家族,就是值策略和梯度策略。经典的DQN，PG，两个不同的算
复制链接

扫一扫

专栏目录

有一个进大厂的梦想 CSDN认证博客专家 CSDN认证企业博客

码龄6年

7: 原创

18万+: 周排名

211万+: 总排名

1万+: 访问

: 等级

101: 积分

8: 粉丝

9: 获赞

7: 评论

83: 收藏

私信

关注

热门文章

分类专栏

强化学习 7篇

最新评论

多智能体强化学习入门QMIX
有一个进大厂的梦想: 合理的动作
多智能体强化学习入门QMIX
bluesky0568: 博主您好,avail action指的是什么呀
多智能体强化学习入门QMIX
hit_dhr_auto: 博主您好，这个源码可以开源吗，学习之用，非常感谢！
多智能体强化学习入门QMIX
Oh_My_god123: 博主您好，本人太笨，关于QMIX算法看不明白了，还望不吝赐教，小弟我将感激不尽！！！1）agent网络一定得用循环神经网络吗？能不能用像DQN中的那样的卷积或者BP神经网络呢？就是输入状态，输出agent不同行为的Q-Value；2）假设有n个agent，蓝色推理网络的的输入是每个agent所选行为的效用值Q（共计n个），其输出是Qtot（1个值），蓝色推理网络的参数是由红色参数生成网络生成，而不是有优化器回调的，我这样理解有问题吗？3）模型学习的时候仅仅基于同一个误差td_error （基于2）中提到的这一个Qtot计算而来）来同时回调所有agent网络的参数和红色参数生成网络的参数，不调节蓝色推理网络？4）红色参数生成网络的输入是全局信息，这个全局信息是不是就是所有agent还未采取行动时的已知全局环境信息Env？例如所有agent位置，障碍物位置，目标点状态等等。5）我们能不能不要红色参数生成网络了，只要一个蓝色推理网络，把全局信息Env和n个agent所选行为的效用值Q一起当做蓝色推理网络的输入，然后利用优化器回调蓝色推理网络的参数？6）假设每个agent都能随时获取其他agent的信息，在每一轮n个agent决策过程中，n个agent依次采取行动a1,a2,...,an，第1个agent的局部观察o1=Env，第2个agent的局部观察o2=o1+a1,...,an=o(n-1)+a(n-1)，这种情况下是不是就可以不要全局信息Env了？7）可以分享一下知乎里面的完整代码吗？github上的代码好像不太完整，看不太懂。。。8）实在不好意思，原谅我是菜鸡一枚，问题有点多多，有打扰之处还望谅解！！！
强化学习-DDQN(三)
little-fairy: 竟然有代码太感谢了！

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。