初识强化学习

最新推荐文章于 2023-03-09 22:43:03 发布

菁菁程mc

最新推荐文章于 2023-03-09 22:43:03 发布

阅读量271

点赞数

文章标签：强化学习

本文链接：https://blog.csdn.net/weixin_38359037/article/details/106819048

版权

一、什么是强化学习

强化学习（Reinforcement learning，简称RL）是机器学习中的一个领域，强调如何基于环境而行动，以取得最大化的预期利益。
核心思想：包含2个部分，3个要素。如图1。智能体agent在环境environment中学习，根据环境的状态state（或观测到 observation），执行动作action，并根据环境的反馈 reward（奖励）来指导更好的动作，如图2。
在这里插入图片描述

图1

在这里插入图片描述 )

图2

二、强化学习特点

1、agent与enviroment交互，根据环境state，执行action。
2、reward是延迟的，一系列的action完成才能知道。

三、强化学习与机器学习的关系

如图3所示。强化学习是机器学习的一部分，与深度学习交叉的部分，称为Deep RL。强化学习、监督学习、非监督学习是机器学习里的三个不同的领域，都跟深度学习有交集。
监督学习寻找输入到输出之间的映射，比如分类和回归问题。
非监督学习主要寻找数据之间的隐藏关系，比如聚类问题。
强化学习则需要在与环境的交互中学习和寻找最佳决策方案。
强化学习主要用于决策怎么做，而监督学习用于认知，识别是什么，如图4所示。
在这里插入图片描述

图3

在这里插入图片描述

图4

四、强化学习应用场合

可用于机器人控制（agent:机器人；environment:环境；state:骨胳、关节状态等；action：肌肉收缩；reward：站立或奔跑）、游戏（如走迷宫，agent:小人；environment:迷宫环境；state:当前位置；action：上下左右；reward：目的地）、推荐（agent:淘宝；environment:商品列表和手机前的你；state:商品；action：给予不同商品；reward：点击、跳过或离开）、金融股票（agent:控制器；environment:股票市场；state:历史曲线；action：买入卖出；reward：收益）、交通（agent:交通控制器；environment:交通状况；state:各个交通路口拍摄图像；action：红绿灯亮灭；reward：路口车辆数，是否拥堵）等，如图5所示。
在这里插入图片描述 )

图5

五、强化学习如何解决问题

强化学习通过不断的试错探索，吸取经验和教训，持续不断的优化策略，从环境中拿到更好的反馈。如图6所示。
强化学习按环境是否已知，分为：Model-based（环境已知，如在公园里，有地图，可动态规划找到出口）和Model-free（环境未知，如在公园里，无地图，通过不断试错摸索找到出口）。
强化学习按学习目标，分为：value-based(Sarsa、Q-learning)和policy-based。
强化学习按学习方式，分为：on-policy(Sarsa)和off-policy(Q-learning)。

在这里插入图片描述

图6

六、强化学习环境

gym是强化学习的环境库。
离散控制场景（输出动作可数），一般用atari环境评估
连续控制场景（输出动作不可数，如：机器人走动，除了方向还有角度），一般用mujoco环境游戏评估
PARL开源库地址 https://github.com/PaddlePaddle/PARL

七、强化学习前沿研究方向

Model-base RL、 Hierarchical RL、 Multi Agent RL、 Meta Learning

八、强化学习经典书籍、课程、论文、算法

（1）经典书籍

强化学习教父Richard Sutton 的经典教材《Reinforcement Learning：An Introduction（强化学习导论）》

（2）经典课程

2015 David Silver经典强化学习公开课、 UC Berkeley CS285 （http://rail.eecs.berkeley.edu/deeprlcourse/）、斯坦福 CS234

（3）经典论文

1、DQN. “Playing atari with deep reinforcement learning.”
https://arxiv.org/pdf/1312.5602.pdf
2、A3C. “Asynchronous methods for deep reinforcement learning.”
http://www.jmlr.org/proceedings/papers/v48/mniha16.pdf
3、DDPG. “Continuous control with deep reinforcement learning.”
https://arxiv.org/pdf/1509.02971
4、PPO. “Proximal policy optimization algorithms.”
https://arxiv.org/pdf/1707.06347

（4）经典算法

Q-learning、Sarsa、DQN、Policy Gradient、A3C、DDPG、PPO

菁菁程mc

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
初识强化学习

一、什么是强化学习强化学习（Reinforcement learning，简称RL）是机器学习中的一个领域，强调如何基于环境而行动，以取得最大化的预期利益。核心思想：包含2个部分，3个要素。如图1。智能体agent在环境environment中学习，根据环境的状态state（或观测到 observation），执行动作action，并根据环境的反馈 reward（奖励）来指导更好的动作，如图2。图1 ) 图2## 二、强化学习特点1、agent与enviroment交互，根据环境stat
复制链接

扫一扫