2021-01-07 Reinforce learning概念

强化学习初印象

agent(智能体)在environment中学习,根据环境的状态state,执行动作action,并根据环境的反馈奖励reward

RL包含:两部分:agent、environment  ;三要素:state/observation、actiom、reward

监督学习(任务驱动型):输入x,输出y     用在分类(分辨)、回归问题(预测)

                 基于一个分类任务或回归任务给训练样本去训练

非监督学习(数据驱动型):输入一批x,分辨两个x不一样

                 寻找数据内的关系与区别

强化学习(环境驱动型):输入的x是环境的状态,输出的是action和环境交互

                 算法适配环境

eg:

监督学习(认知:是什么)    熊:啥熊          独立同分布

强化学习(决策:怎么做)    熊:装死          上下动作可能会影响

Agent学习的两种方案

基于价值value-based

给每个状态赋予一个价值概念,以代表当前状态的好/坏(相对)

求解状态价值 -> 总是往价值高的地方走 -> 最优策略

确定性策略(Sarsa、Q-learning、DQN)

基于策略policy-based

用一条策略走到底,用最后的reward来判断当前策略是好还是坏

将策略函数化,策略即概率函数,代表选择每个动作的概率分别是多少

随机性策略(Policy gradient)

RL中  agent<——>environment交互接口

gym的核心接口是environment,方法:

(1)reset():重置环境的状态,回到初始环境,方便开始下一次训练

(2)step(action):推进一个时间步长,返回四个值

             ①observation(object):对环境的一次观察

             ②reward(float):奖励

             ③done(boolean):代表是否需要重置环境

             ④info(dict):用于调试的诊断信息

(3)render():重绘环境的一帧图像

算法库parl 环境库gym

 

 

(学习笔记----------科老师:飞桨强化学习PARL团队)

 

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值