初识强化学习

一、什么是强化学习

强化学习(Reinforcement learning,简称RL)是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。
核心思想:包含2个部分,3个要素。如图1。智能体agent在环境environment中学习,根据环境的状态state(或观测到 observation),执行动作action,并根据环境的反馈 reward(奖励)来指导更好的动作,如图2。
在这里插入图片描述

图1

在这里插入图片描述)

图2

二、强化学习特点

1、agent与enviroment交互,根据环境state,执行action。
2、reward是延迟的,一系列的action完成才能知道。

三、强化学习与机器学习的关系

如图3所示。强化学习是机器学习的一部分,与深度学习交叉的部分,称为Deep RL。强化学习、监督学习、非监督学习是机器学习里的三个不同的领域,都跟深度学习有交集。
监督学习寻找输入到输出之间的映射,比如分类和回归问题。
非监督学习主要寻找数据之间的隐藏关系,比如聚类问题。
强化学习则需要在与环境的交互中学习和寻找最佳决策方案。
强化学习主要用于决策怎么做,而监督学习用于认知,识别是什么,如图4所示。
在这里插入图片描述

图3

在这里插入图片描述

图4

四、强化学习应用场合

可用于机器人控制(agent:机器人;environment:环境;state:骨胳、关节状态等;action:肌肉收缩;reward:站立或奔跑)、游戏(如走迷宫,agent:小人;environment:迷宫环境;state:当前位置;action:上下左右;reward:目的地)、推荐(agent:淘宝;environment:商品列表和手机前的你;state:商品;action:给予不同商品;reward:点击、跳过或离开)、金融股票(agent:控制器;environment:股票市场;state:历史曲线;action:买入卖出;reward:收益)、交通(agent:交通控制器;environment:交通状况;state:各个交通路口拍摄图像;action:红绿灯亮灭;reward:路口车辆数,是否拥堵)等,如图5所示。
在这里插入图片描述)

图5

五、强化学习如何解决问题

强化学习通过不断的试错探索,吸取经验和教训,持续不断的优化策略,从环境中拿到更好的反馈。如图6所示。
强化学习按环境是否已知,分为:Model-based(环境已知,如在公园里,有地图,可动态规划找到出口)和Model-free(环境未知,如在公园里,无地图,通过不断试错摸索找到出口)。
强化学习按学习目标,分为:value-based(Sarsa、Q-learning)和policy-based。
强化学习按学习方式,分为:on-policy(Sarsa)和off-policy(Q-learning)。

在这里插入图片描述

图6

六、强化学习环境

gym是强化学习的环境库。
离散控制场景(输出动作可数),一般用atari环境评估
连续控制场景(输出动作不可数,如:机器人走动,除了方向还有角度),一般用mujoco环境游戏评估
PARL开源库地址 https://github.com/PaddlePaddle/PARL

七、强化学习前沿研究方向

Model-base RL、 Hierarchical RL、 Multi Agent RL、 Meta Learning

八、强化学习经典书籍、课程、论文、算法

(1)经典书籍

强化学习教父Richard Sutton 的经典教材《Reinforcement Learning:An Introduction(强化学习导论)》

(2)经典课程

2015 David Silver经典强化学习公开课、 UC Berkeley CS285 (http://rail.eecs.berkeley.edu/deeprlcourse/)、斯坦福 CS234

(3)经典论文

1、DQN. “Playing atari with deep reinforcement learning.”
https://arxiv.org/pdf/1312.5602.pdf
2、A3C. “Asynchronous methods for deep reinforcement learning.”
http://www.jmlr.org/proceedings/papers/v48/mniha16.pdf
3、DDPG. “Continuous control with deep reinforcement learning.”
https://arxiv.org/pdf/1509.02971
4、PPO. “Proximal policy optimization algorithms.”
https://arxiv.org/pdf/1707.06347

(4)经典算法

Q-learning、Sarsa、DQN、Policy Gradient、A3C、DDPG、PPO

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值