1、强化学习
强化学习其实就是将人类/动物在犯错中成长的试错学习方法(吃一堑长一智)用于训练智能体。
试错学习一开始是和行为心理学等工作联系在一起的,主要包括以下几个关键部分:
- 尝试:采取一系列动作或行为来尝试解决问题或实现目标。
- 错误:在尝试的过程中可能会出现错误,这些错误可能是环境的不确定性导致的,也可能是自身的不当行为导致的。
- 结果:每次尝试的后果,无论是积极的还是消极的,都会对下一次尝试产生影响。
- 学习:通过不断地尝试并出现错误,自身会逐渐积累经验,了解哪些动作或行为会产生有利的结果,从而在下一次尝试中做出更加明智的选择。
这里面包含了强化学习里用到的决策、奖励、状态转移等等方面。
2、强化学习方向
(a)多智能体强化学习
(b)从数据中学习
(c)探索策略
(d)实时环境
(e)多任务强化学习
3、马尔可夫决策过程
上图描述了马尔可夫决策过程中智能体与环境的交互过程。智能体每一时刻都会接收环境的状态,并执行动作,进而接收到环境反馈的奖励信号和下一时刻的状态。
即智能体做出决策(动作),身边环境的变化称之为状态转移,目标的反馈称之为奖励。
4、动态规划
动态规划其实并不是强化学习领域中独有的算法,它在数学、管理科学、经济学和生物信息学等其他领域都有广泛的应用。动态规划具体指的是在某些复杂问题中,将问题转化为若干个子问题,并在求解每个子问题的过程中保存已经求解的结果,以便后续使用。实际上动态规划更像是一种通用的思路,而不是具体某个算法。在强化学习中,动态规划被用于求解值函数和最优策略。
通过贝尔曼方程的推导将前后状态的回报关联起来,方便通过动态规划来解决问题。