强化学习概念

1、强化学习

强化学习其实就是将人类/动物在犯错中成长的试错学习方法(吃一堑长一智)用于训练智能体。

试错学习一开始是和行为心理学等工作联系在一起的,主要包括以下几个关键部分:

  • 尝试:采取一系列动作或行为来尝试解决问题或实现目标。
  • 错误:在尝试的过程中可能会出现错误,这些错误可能是环境的不确定性导致的,也可能是自身的不当行为导致的。
  • 结果:每次尝试的后果,无论是积极的还是消极的,都会对下一次尝试产生影响。
  • 学习:通过不断地尝试并出现错误,自身会逐渐积累经验,了解哪些动作或行为会产生有利的结果,从而在下一次尝试中做出更加明智的选择。

这里面包含了强化学习里用到的决策、奖励、状态转移等等方面。

2、强化学习方向

(a)多智能体强化学习

(b)从数据中学习

(c)探索策略

(d)实时环境

(e)多任务强化学习

3、马尔可夫决策过程

上图描述了马尔可夫决策过程中智能体与环境的交互过程。智能体每一时刻都会接收环境的状态,并执行动作,进而接收到环境反馈的奖励信号和下一时刻的状态。

即智能体做出决策(动作),身边环境的变化称之为状态转移,目标的反馈称之为奖励。

4、动态规划

动态规划其实并不是强化学习领域中独有的算法,它在数学、管理科学、经济学和生物信息学等其他领域都有广泛的应用。动态规划具体指的是在某些复杂问题中,将问题转化为若干个子问题,并在求解每个子问题的过程中保存已经求解的结果,以便后续使用。实际上动态规划更像是一种通用的思路,而不是具体某个算法。在强化学习中,动态规划被用于求解值函数和最优策略。

通过贝尔曼方程的推导将前后状态的回报关联起来,方便通过动态规划来解决问题。

  • 9
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值