强化学习概念介绍

强化学习本质

是智能体(agent)以试错的方式进行学习,通过与环境进行交互获得奖励指导行为,目标是寻找一个最优策略,使智能体获得最大的奖励。(注意,agent的动作的影响不止立即获取得到的奖励,而且还影响接下来的动作和最终的奖励)

关键要素

envirnment ,reward,action,state,policy(确定策略和随机策略:以一定的概率执行某一动作)

具体策略

把用来指导个体产生于环境进行交互行为的策略:行为策略
把用来评价状态或行为价值的策略称为:目标策略

学习过程

1获得样例后更新自己的模型
2.利用当前的模型指导下一步行动
3.下一步的行动获得reward之后再更新模型
4,不断迭代指导模型收敛
强化学习的分类
理解或感知环境 ;回合更新或单步更新 基于价值或基于策略 同策略或异策略(自己玩或者看别人玩)

环境安装

pip install gym
常用函数:env=gym.make(“CartPole-vo”)
ebv.reset() 初始化智能体
env.render() 现实环境中的物体图像
env.step() 描述智能体与环境交互的所有信息

除此之外还有Baselines MuJoCo环境(主要用于机器人),rllab ,ToRCS ,PySC2

与机器学习的异同

1.没有教师信号,没有label,只有reward
2.反馈有延时,不是立即返回
3数据是序列化的,数据与数据之间是有关系的
4.agent执行的动作会影响后续的数据

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值