强化学习本质
是智能体(agent)以试错的方式进行学习,通过与环境进行交互获得奖励指导行为,目标是寻找一个最优策略,使智能体获得最大的奖励。(注意,agent的动作的影响不止立即获取得到的奖励,而且还影响接下来的动作和最终的奖励)
关键要素
envirnment ,reward,action,state,policy(确定策略和随机策略:以一定的概率执行某一动作)
具体策略
把用来指导个体产生于环境进行交互行为的策略:行为策略
把用来评价状态或行为价值的策略称为:目标策略
学习过程
1获得样例后更新自己的模型
2.利用当前的模型指导下一步行动
3.下一步的行动获得reward之后再更新模型
4,不断迭代指导模型收敛
强化学习的分类
理解或感知环境 ;回合更新或单步更新 基于价值或基于策略 同策略或异策略(自己玩或者看别人玩)
环境安装
pip install gym
常用函数:env=gym.make(“CartPole-vo”)
ebv.reset() 初始化智能体
env.render() 现实环境中的物体图像
env.step() 描述智能体与环境交互的所有信息
除此之外还有Baselines MuJoCo环境(主要用于机器人),rllab ,ToRCS ,PySC2
与机器学习的异同
1.没有教师信号,没有label,只有reward
2.反馈有延时,不是立即返回
3数据是序列化的,数据与数据之间是有关系的
4.agent执行的动作会影响后续的数据