强化学习初印象
agent(智能体)在environment中学习,根据环境的状态state,执行动作action,并根据环境的反馈奖励reward
RL包含:两部分:agent、environment ;三要素:state/observation、actiom、reward
监督学习(任务驱动型):输入x,输出y 用在分类(分辨)、回归问题(预测)
基于一个分类任务或回归任务给训练样本去训练
非监督学习(数据驱动型):输入一批x,分辨两个x不一样
寻找数据内的关系与区别
强化学习(环境驱动型):输入的x是环境的状态,输出的是action和环境交互
算法适配环境
eg:
监督学习(认知:是什么) 熊:啥熊 独立同分布
强化学习(决策:怎么做) 熊:装死 上下动作可能会影响
Agent学习的两种方案
基于价值value-based
、
给每个状态赋予一个价值概念,以代表当前状态的好/坏(相对)
求解状态价值 -> 总是往价值高的地方走 -> 最优策略
确定性策略(Sarsa、Q-learning、DQN)
基于策略policy-based
用一条策略走到底,用最后的reward来判断当前策略是好还是坏
将策略函数化,策略即概率函数,代表选择每个动作的概率分别是多少
随机性策略(Policy gradient)
RL中 agent<——>environment交互接口
gym的核心接口是environment,方法:
(1)reset():重置环境的状态,回到初始环境,方便开始下一次训练
(2)step(action):推进一个时间步长,返回四个值
①observation(object):对环境的一次观察
②reward(float):奖励
③done(boolean):代表是否需要重置环境
④info(dict):用于调试的诊断信息
(3)render():重绘环境的一帧图像
算法库parl 环境库gym
(学习笔记----------科老师:飞桨强化学习PARL团队)