强化学习概念

最新推荐文章于 2024-07-26 13:24:37 发布

CharlesChenMS

最新推荐文章于 2024-07-26 13:24:37 发布

阅读量409

点赞数 9

文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cms90822/article/details/139815806

版权

1、强化学习

强化学习其实就是将人类/动物在犯错中成长的试错学习方法（吃一堑长一智）用于训练智能体。

试错学习一开始是和行为心理学等工作联系在一起的，主要包括以下几个关键部分：

尝试：采取一系列动作或行为来尝试解决问题或实现目标。
错误：在尝试的过程中可能会出现错误，这些错误可能是环境的不确定性导致的，也可能是自身的不当行为导致的。
结果：每次尝试的后果，无论是积极的还是消极的，都会对下一次尝试产生影响。
学习：通过不断地尝试并出现错误，自身会逐渐积累经验，了解哪些动作或行为会产生有利的结果，从而在下一次尝试中做出更加明智的选择。

这里面包含了强化学习里用到的决策、奖励、状态转移等等方面。

2、强化学习方向

（a）多智能体强化学习

（b）从数据中学习

（c）探索策略

（d）实时环境

（e）多任务强化学习

3、马尔可夫决策过程

上图描述了马尔可夫决策过程中智能体与环境的交互过程。智能体每一时刻都会接收环境的状态，并执行动作，进而接收到环境反馈的奖励信号和下一时刻的状态。

即智能体做出决策（动作），身边环境的变化称之为状态转移，目标的反馈称之为奖励。

4、动态规划

动态规划其实并不是强化学习领域中独有的算法，它在数学、管理科学、经济学和生物信息学等其他领域都有广泛的应用。动态规划具体指的是在某些复杂问题中，将问题转化为若干个子问题，并在求解每个子问题的过程中保存已经求解的结果，以便后续使用。实际上动态规划更像是一种通用的思路，而不是具体某个算法。在强化学习中，动态规划被用于求解值函数和最优策略。

通过贝尔曼方程的推导将前后状态的回报关联起来，方便通过动态规划来解决问题。

关注

9
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
强化学习概念

动态规划其实并不是强化学习领域中独有的算法，它在数学、管理科学、经济学和生物信息学等其他领域都有广泛的应用。动态规划具体指的是在某些复杂问题中，将问题转化为若干个子问题，并在求解每个子问题的过程中保存已经求解的结果，以便后续使用。智能体每一时刻都会接收环境的状态，并执行动作，进而接收到环境反馈的奖励信号和下一时刻的状态。强化学习其实就是将人类/动物在犯错中成长的试错学习方法（吃一堑长一智）用于训练智能体。即智能体做出决策（动作），身边环境的变化称之为状态转移，目标的反馈称之为奖励。（a）多智能体强化学习。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。