强化学习：CartPole

最新推荐文章于 2024-06-06 23:27:19 发布

三少Algorithm

最新推荐文章于 2024-06-06 23:27:19 发布

阅读量2.9k

点赞数 3

分类专栏： RL 文章标签：强化学习 cartpole

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42717395/article/details/88853609

版权

欢迎加群：1012878218，一起学习、交流强化学习，里面会有关于深度学习、机器学习、强化学习的各种资料。

强化学习（Reinforcement Learning），是机器学习的一个分支，解决连续策略问题。区别于无监督学习（如聚类，kmeans，自编码器）和有监督学习（分类和回归，CNN，RNN，LSTM），强化学习的目标变化不明确，不存在绝对的正确标签。

强化学习主要包含几个概念：环境状态（Observation），行动（Action）和奖励（Reward），通过智能体（Agent）与环境（Enviroment）不断的交互，不断的试错，从经验中学习，最终确定出最佳策略，即每个状态下最佳的Action，从而获得最大的累计奖励。

强化学习已经应用在了AlphaGo，无人驾驶，游戏等领域，AlphaGo主要使用了快速走子，策略网络，估值网络和蒙特卡洛搜索树等技术。

强化学习模型本质上也是神经网络，主要分为策略网络（Policy network，如Policy Gradient）和估值网络（Value Network，如Q-Learnning，Sarsa，Deep Q Network）。第一种直接预测在某个环境状态下应该采取的行动，第二种是预测在某个环境状态下所有行动的期望价值，然后选择Q值最高的策略执行。策略网络的训练方法是策略梯度，好的策略产生更高的期望值，通过对样本的学习，模型会逐渐输出好的策略。

强化学习还有其他的划分方式：

model-free（Q learning, Sarsa, Policy Gradients）和model-based，model-based的可以理解环境。

基于概率（Policy Gradient）和基于价值（Q learning, Sarsa），两者结合（Actor-Critic）。

回合更新（Monte-carlo learning，基础版的policy gradients）和单步更新（Qle

最低0.47元/天解锁文章

三少Algorithm

关注

3
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
强化学习：CartPole

欢迎加群：1012878218，一起学习、交流强化学习，里面会有关于深度学习、机器学习、强化学习的各种资料。强化学习（Reinforcement Learning），是机器学习的一个分支，解决连续策略问题。区别于无监督学习（如聚类，kmeans，自编码器）和有监督学习（分类和回归，CNN，RNN，LSTM），强化学习的目标变化不明确，不存在绝对的正确标签。强化学...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。