强化学习是什么

最新推荐文章于 2024-06-16 09:30:36 发布

Nefelibat

最新推荐文章于 2024-06-16 09:30:36 发布

阅读量294

点赞数

分类专栏：机器学习文章标签：强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41821067/article/details/116208380

版权

强化学习是一种机器学习方法，智能体通过与环境互动并根据反馈来学习最佳策略。应用广泛，如AlphaGO。核心是策略和值函数，包括MDP、Q-learning、策略梯度等算法。环境模拟库如Gym、MuJoCo用于实验。目标是最大化累积回报。

摘要由CSDN通过智能技术生成

目录

应用
应用

应用

游戏，仿真，不需要指定已知数据，根据反馈进行学习，比如AlphaGO.落地实现不多。

环境

pip install gym
官网地址：
gym.oepenai.com
Box2D
MuJoCo
rlSchool

基本算法

马尔科夫决策过程MDP、策略迭代、价值迭代、广义策略迭代、

最优价值算法

Q-learning、DQN改进

反向强化学习

反向强化学习，最大熵反向强化学习，GAIL

其他强化学习方法

稀疏回报求解、Model-based

基于策略梯度的算法

Actor-Critic算法:与gan相似，有A3C，A2C，使策略单调提升优化：TRPO，GAE、PPO
off-policy策略梯度法:Retrace、ACER、DPG、DDPG。

应用

在这里插入图片描述
其中环境的参数可以是指定的，智能体的参数需要不断进行学习。
1、在一个离散时间序列，t=0,1,2,…中，智能体需要完成某项任务。
2、在每个时刻t,智能体执行动作at，并在环境中得到状态st和回报rt,环境会对智能

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Nefelibat 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。