(一)强化学习——发展历程

强化学习融合了试错法、最优控制理论与时序差分法,从动物学习心理到动态规划,再到Q学习的提出,这一领域经历了从简单到复杂的发展,其中关键概念如动态规划、价值函数和贝尔曼方程在其中起到了重要作用。1989年的Q学习标志着现代强化学习的形成,将这些概念整合在一起。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

《孙子·谋攻篇》中有这样一句话,“知己知彼,百战不殆”。这句话虽然是讲军事的,但我觉得学习一门新技术何尝不是和一个新敌人作战。我们只有足够了解它,才能从本质的角度来理解这门技术。这对今后对这门技术的学习至关重要。下面让我们来揭开强化学习的神秘面纱,看看他的“前世历程”。

强化学习的历史发展有两条同样源远流长的主线,在交汇于现代强化学习之前他们是相互独立的。一条主线关注的是源于动物学习心理的试错法,这个其实很好理解,就像我们训练家里的小狗一样。我们给小狗一个指令,小狗若是做出了符合我们预期的动作,我们就会给狗子一个奖励,若是不符合预期,就给一个惩罚,久而久之,狗子就能根据指令做出正确的动作。
训练狗子

另一条主线是关注最优控制问题以及使用价值函数和动态规划解决方案。”最优控制“这一术语最早使用于20世纪50年代末。其设计目标是使得动态系统随时间变化的某种度量最小化或者最大化。20世纪50年代中期,Richard Bellman和其他一些人开发了针对这一问题的一种方法,这种方法运用了动态系统状态价值函数,或者称“最优回报函数”的概念。其定义了一个函数方程,现在我们通常叫它贝尔曼方程。通过求解这个方程来解决最优控制问题的这类方法被称为动态规划(DP),动态规划是一种优化算法。在强化学习中,DP的核心思想是使用价值函数来结构化地组织对最优策略的搜索。Bellman(1957b)也提出了最优控制的离散随机版本,被称为马尔科夫决策过程(MDP)。在此之后,Ronald Howard(1960)又设计出了MDP策略迭代方法。动态规划被普遍认为是解决一般随机最优控制问题唯一可行的方法。但它遭受了贝尔曼所谓的“维度灾难”,意味着随着状态数量增加,计算需求将成指数级增长。

这两条都与第三条不太明显的关注时序差分法(temporal-difference) 有一定的关联。时序差分学习方法的特点在于它是由时序上连续地对同一量的估计驱动,这条主线比其他两条更微小,更不显著,但却对这个领域有很重要的影响,部分原因时序差分学习方法对于强化学习来说似乎是全新且独一无二的。在20世纪80年代,这三条主线交汇到一起产生了现代的强化学习领域。在1989年,Chris Watkins 提出了Q学习将时序差分学习和最优控制完全结合在一起。这项工作拓展并整合了强化学习研究的全部三条主线的早期工作。Paul Werbos(1987)至1977年以来证明了试错学习和动态规划的收敛性,进一步完善了相关工作。

我便没有从时间的角度来概括强化学习的发展,而是从技术的角度来阐述的。上面所提到的很多名词,动态规划,价值函数,时序差分法,贝尔曼方程等等这些名词。理解这些名词,了解这些名词的本质,有助于学习强化学习的相关算法。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值