一、概念
强化学习(RL)是机器学习的一个领域,涉及软件代理应该如何在一个环境中采取行动,以最大化一些累积奖励的概念。由于其一般性,该问题在许多其他学科中进行了研究,例如博弈论,控制理论,运筹学,信息论,基于模拟的优化,多智能体系统,群体智能,统计学和遗传算法。在运筹学和控制文献中,强化学习被称为近似动态规划或神经动态规划。在最优控制理论中也研究了强化学习中存在的问题,其主要关注的是存在和表征。最佳解决方案和算法用于精确计算,而不是学习或近似,特别是在没有环境数学模型的情况下。在经济学和博弈论中,强化学习可以用来解释在有限理性下如何产生均衡。在机器学习中,环境通常被表述为马尔可夫决策过程(MDP),因为用于该上下文的许多强化学习算法利用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于后者不假设MDP的精确数学模型的知识,并且它们针对精确方法变得不可行的大型MDP。引用于https://en.wikipedia.org/wiki/Reinforcement_learning
.强化学习任务通常用马尔可夫决策过程(Markov Decision Process,简称MDP)来描述:机器处于环境E 中,状
态空间为X ,其中每个状态x X 是机器感知到的环境的描述,若某个动作α