增强学习总结

本文总结了强化学习的基本概念,包括智能体如何通过试错学习在环境中获取最大累积回报。强化学习的特点是试错学习和延迟回报,主要通过马尔可夫决策过程(MDP)进行建模。文章探讨了有模型和无模型的强化学习方法,如动态规划和蒙特卡罗学习,并讨论了策略评估和优化的关键问题。
摘要由CSDN通过智能技术生成

增强学习总结

增强学习概念:

增强学习关注的是智能体如何在环境中采取一系列行为,从而获得最大的累积回报

通过增强学习,一个智能体应该知道在什么状态下应该采取什么行为

强化学习,就是根据奖励,判断在相应的状态下,应该做的动作——从状态到动作的映射就是学习策略

增强学习是机器学习中一个非常活跃且有趣的领域,相比其他学习方法,增强学习更接近生物学习的本质,因此有望获得更高的智能,这一点在棋类游戏中已经得到体现。

 

特点:

1.  增强学习是试错学习(Trail-and-error),由于没有直接的指导信息,智能体要以不断与环境进行交互,通过试错的方式来获得最佳策略。

2.  延迟回报增强学习的指导信息很少,而且往往是在事后(最后一个状态)才给出的,这就导致了一个问题,就是获得正回报或者负回报以后,如何将回报分配给前面的状态。

马尔可夫决策过程:

马尔可夫决策过程(Markov DecisionProcess, MDP)也具有马尔可夫性,与上面不同的是MDP考虑了动作

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值