强化学习概念介绍

最新推荐文章于 2023-03-09 22:43:03 发布

大风起兮借天时

最新推荐文章于 2023-03-09 22:43:03 发布

阅读量436

点赞数

分类专栏：强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/a704838294/article/details/103841826

版权

强化学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

强化学习本质

是智能体（agent）以试错的方式进行学习，通过与环境进行交互获得奖励指导行为，目标是寻找一个最优策略，使智能体获得最大的奖励。（注意，agent的动作的影响不止立即获取得到的奖励，而且还影响接下来的动作和最终的奖励）

关键要素

envirnment ，reward，action，state，policy（确定策略和随机策略：以一定的概率执行某一动作）

具体策略

把用来指导个体产生于环境进行交互行为的策略：行为策略
把用来评价状态或行为价值的策略称为：目标策略

学习过程

1获得样例后更新自己的模型
2.利用当前的模型指导下一步行动
3.下一步的行动获得reward之后再更新模型
4，不断迭代指导模型收敛
强化学习的分类
理解或感知环境；回合更新或单步更新基于价值或基于策略同策略或异策略（自己玩或者看别人玩）

环境安装

pip install gym
常用函数：env=gym.make(“CartPole-vo”)
ebv.reset() 初始化智能体
env.render（）现实环境中的物体图像
env.step() 描述智能体与环境交互的所有信息

除此之外还有Baselines MuJoCo环境（主要用于机器人），rllab ,ToRCS ,PySC2

与机器学习的异同

1.没有教师信号，没有label，只有reward
2.反馈有延时，不是立即返回
3数据是序列化的，数据与数据之间是有关系的
4.agent执行的动作会影响后续的数据

大风起兮借天时

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
强化学习概念介绍

强化学习本质是智能体（agent）以试错的方式进行学习，通过与环境进行交互获得奖励指导行为，目标是寻找一个最优策略，使智能体获得最大的奖励。（注意，agent的动作的影响不止立即获取得到的奖励，而且还影响接下来的动作和最终的奖励）关键要素envirnment ，reward，action，state，policy（确定策略和随机策略：以一定的概率执行某一动作）具体策略把用来指导个体产生于...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。