机器学习之强化学习

最新推荐文章于 2024-08-11 18:21:52 发布

漓艾初

最新推荐文章于 2024-08-11 18:21:52 发布

阅读量2.2k

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/aron_conli/article/details/88257478

版权

强化学习（RL）是机器学习领域的一部分，关注代理如何在环境中行动以最大化累积奖励。它涉及马尔可夫决策过程（MDP），目标是找到使长期累积奖赏最大化的策略。RL在运筹学、控制理论、博弈论等多个学科中有应用，而且在没有环境模型的情况下，学习或近似最佳解决方案。强化学习任务通常表现为四元组（状态空间，动作集，状态转移概率，奖赏函数）。由于反馈的延迟，它被视为具有延迟标记信息的监督学习问题。

摘要由CSDN通过智能技术生成

一、概念

强化学习（RL）是机器学习的一个领域，涉及软件代理应该如何在一个环境中采取行动，以最大化一些累积奖励的概念。由于其一般性，该问题在许多其他学科中进行了研究，例如博弈论，控制理论，运筹学，信息论，基于模拟的优化，多智能体系统，群体智能，统计学和遗传算法。在运筹学和控制文献中，强化学习被称为近似动态规划或神经动态规划。在最优控制理论中也研究了强化学习中存在的问题，其主要关注的是存在和表征。最佳解决方案和算法用于精确计算，而不是学习或近似，特别是在没有环境数学模型的情况下。在经济学和博弈论中，强化学习可以用来解释在有限理性下如何产生均衡。在机器学习中，环境通常被表述为马尔可夫决策过程（MDP），因为用于该上下文的许多强化学习算法利用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于后者不假设MDP的精确数学模型的知识，并且它们针对精确方法变得不可行的大型MDP。引用于https://en.wikipedia.org/wiki/Reinforcement_learning

.强化学习任务通常用马尔可夫决策过程(Markov Decision Process，简称MDP)来描述:机器处于环境E 中，状
态空间为X ，其中每个状态x $\epsilon$ X 是机器感知到的环境的描述，若某个动作α