强化学习介绍
从本质上看,强化学习是一个通用的问题解决框架,其核心思想是 Trial & Error。
强化学习可以用一个闭环示意图来表示
强化学习四元素
- 策略(Policy):环境的感知状态到行动的映射方式。
- 反馈(Reward):环境对智能体行动的反馈。
- 价值函数(Value Function):评估状态的价值函数,状态的价值即从当前状态开始,期望在未来获得的奖赏。
- 环境模型(Model):模拟环境的行为。
强化学习的特点
- 起源于动物学习心理学的试错法(trial-and-error),因此符合行为心理学。
- 寻求探索(exploration)和采用(exploitation)之间的权衡:强化学习一面要采用(exploitation)已经发现的有效行动,另一方面也要探索(exploration)那些没有被认可的行动,已找到更好的解决方案。
- 考虑整个问题而不是子问题。
- 通用AI解决方案。
强化学习与其他机器学习的不同:
- 强化学习更加专注于在线规划,需要在探索(explore 未知领域)和采用(exploit 现有知识)之间找到平衡。
- 强化学习不需要监督者,只需要获取环境的反馈。
- 反馈是延迟的,不是立即生成的。
- 时间在强化学习中很重要,其数据为序列数据,并不满足独立同分布假设(i.i.d)。
强化学习分类
强化学习分类比较多样:
- 按照环境是否已知可以分为Model-based & Model-free;
- 按照学习方式可以分为On-Policy & Off-Policy;
- 按照学习目标可以分为Value-based & Policy-based。
下图为根据环境是否已知进行细分的示意图
强化学习相关推荐资料
- Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto:介绍强化学习很全面的一本书籍,相关的电子书及源码见这里。
- David Silver在UCL的强化学习视频教程:介绍强化学习的视频教程,基本与Sutton的书籍可以配套学习,Silver来自于Google Deepmind,视频和课件可以从Silver的主页获取,中文字幕版视频YouTube链接点这里。
- 强化学习在阿里的技术演进与业务创新:介绍强化学习在阿里巴巴的落地,可以拓展强化学习应用的业务思路,电子版见这里,密码:yh48。
- Tutorial: Deep Reinforcement Learning:同样来自于Sliver的一个课件,主要针对RL与DL的结合进行介绍,电子版见这里,密码:9mrp。
- 莫烦PYTHON强化学习视频教程:可以通过简短的视频概括地了解强化学习相关内容,适合于入门的同学,视频见这里。
- OpenAI Gym:Gym is a toolkit for developing and comparing reinforcement learning algorithms,Gym包含了很多的控制游戏(比如过山车、二级立杆、Atari游戏等),并提供了非常好的接口可以学习,链接见这里。
,并提供了非常好的接口可以学习,链接见这里。 - Lil’Log:介绍DL和RL的一个优质博客,RL相关包括RL介绍、Policy Gradients算法介绍及Deep RL结合Tensorflow和Gym的源码实现,主页链接见这里。