作者:禅与计算机程序设计艺术
1.简介
强化学习(Reinforcement Learning)是机器学习的一种方法,它试图通过系统反馈的信息进行优化,使得系统在长期内获得最优的行为策略。强化学习的研究始于上个世纪五六十年代,由约翰·格雷戴克、安东尼·弗里德曼和柯洁·西蒙在麻省理工学院开展,并被广泛应用于游戏领域。强化学习可以用于解决一些复杂的问题,包括操作问题、环境建模、控制优化等,这些问题的关键在于如何能够准确的预测系统在不同状态下可能采取的各种行为以及相应的动作产生的奖励信号。此外,强化学习还可以有效地解决多种机器学习问题,例如监督学习、无监督学习、强化学习、推荐系统等。
强化学习属于增强学习范畴。一般来说,增强学习是指通过对某些现实世界中的过程进行建模和分析,利用强大的计算能力,在不完备信息情况下学习到更多的知识和经验,从而让机器具有与人的预期一样的能力。增强学习的基本假设就是一个agent(智能体)在面对新的环境时,能够根据之前的经验,快速适应新的情况。其特点包括:
- 环境是完全可观察的;
- agent和环境之间存在一个交互的、动态的过程;
- agent在这个过程中可能会受到各种刺激或影响,需要能够灵活应对;
- 系统的目标是在长期时间内最大限度地实现自身的目标。
强化学习最重要的