机器学习 之 强化学习

强化学习(RL)是机器学习领域的一部分,关注代理如何在环境中行动以最大化累积奖励。它涉及马尔可夫决策过程(MDP),目标是找到使长期累积奖赏最大化的策略。RL在运筹学、控制理论、博弈论等多个学科中有应用,而且在没有环境模型的情况下,学习或近似最佳解决方案。强化学习任务通常表现为四元组(状态空间,动作集,状态转移概率,奖赏函数)。由于反馈的延迟,它被视为具有延迟标记信息的监督学习问题。
摘要由CSDN通过智能技术生成

一、概念

强化学习(RL)是机器学习的一个领域,涉及软件代理应该如何在一个环境中采取行动,以最大化一些累积奖励的概念。由于其一般性,该问题在许多其他学科中进行了研究,例如博弈论,控制理论,运筹学,信息论,基于模拟的优化,多智能体系统,群体智能,统计学和遗传算法。在运筹学和控制文献中,强化学习被称为近似动态规划或神经动态规划。在最优控制理论中也研究了强化学习中存在的问题,其主要关注的是存在和表征。最佳解决方案和算法用于精确计算,而不是学习或近似,特别是在没有环境数学模型的情况下。在经济学和博弈论中,强化学习可以用来解释在有限理性下如何产生均衡。在机器学习中,环境通常被表述为马尔可夫决策过程(MDP),因为用于该上下文的许多强化学习算法利用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于后者不假设MDP的精确数学模型的知识,并且它们针对精确方法变得不可行的大型MDP。引用于https://en.wikipedia.org/wiki/Reinforcement_learning

 

.强化学习任务通常用马尔可夫决策过程(Markov Decision Process,简称MDP)来描述:机器处于环境E 中,状
态空间为X ,其中每个状态x \epsilon X 是机器感知到的环境的描述,若某个动作α

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值