增强学习总结

最新推荐文章于 2024-04-25 15:47:38 发布

CangHaier

最新推荐文章于 2024-04-25 15:47:38 发布

阅读量827

点赞数

分类专栏：机器学习文章标签：增强学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/CangHaier/article/details/80637767

版权

本文总结了强化学习的基本概念，包括智能体如何通过试错学习在环境中获取最大累积回报。强化学习的特点是试错学习和延迟回报，主要通过马尔可夫决策过程（MDP）进行建模。文章探讨了有模型和无模型的强化学习方法，如动态规划和蒙特卡罗学习，并讨论了策略评估和优化的关键问题。

摘要由CSDN通过智能技术生成

增强学习总结

增强学习概念：

增强学习关注的是智能体如何在环境中采取一系列行为，从而获得最大的累积回报。

通过增强学习，一个智能体应该知道在什么状态下应该采取什么行为。

强化学习，就是根据奖励，判断在相应的状态下，应该做的动作——从状态到动作的映射就是学习策略

增强学习是机器学习中一个非常活跃且有趣的领域，相比其他学习方法，增强学习更接近生物学习的本质，因此有望获得更高的智能，这一点在棋类游戏中已经得到体现。

特点：

1. 增强学习是试错学习(Trail-and-error)，由于没有直接的指导信息，智能体要以不断与环境进行交互，通过试错的方式来获得最佳策略。

2. 延迟回报，增强学习的指导信息很少，而且往往是在事后（最后一个状态）才给出的，这就导致了一个问题，就是获得正回报或者负回报以后，如何将回报分配给前面的状态。

马尔可夫决策过程：

马尔可夫决策过程(Markov DecisionProcess, MDP)也具有马尔可夫性，与上面不同的是MDP考虑了动作

最低0.47元/天解锁文章

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

CangHaier CSDN认证博客专家 CSDN认证企业博客

码龄7年

18: 原创

74万+: 周排名

209万+: 总排名

3万+: 访问

: 等级

515: 积分

8: 粉丝

5: 获赞

0: 评论

51: 收藏

私信

关注

分类专栏

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。