这里需要五个字(1)

本文介绍了强化学习的基本概念,包括其试错和延迟回报特性,以及与有监督学习和无监督学习的区别。核心要素如策略、收益信号和价值函数被详细阐述,同时还讨论了强化学习与进化方法的异同。文章回顾了强化学习的早期历史,从动物学习心理学和最优控制问题的发展,到现代的时序差分学习和Q学习等关键突破。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

第一章 导论

1.1强化学习

强化学习:强化学习就是学习做什么才能使得数值化收益信号最大化

两个最显著最重要特征:试错:必须自己通过尝试去发现哪些动作产生最丰厚的收益

​ 延迟回报:动作不仅仅影响即时收益,也会影响下一个情境从而影响随后的收益。

对比强化学习和有监督学习:

​ 有监督学习:从外部监督者提供的带标注的训练集中进行学习,每一个样本都是关于情景和标注的描述。

​ 让系统能够具备推断或泛化能力,能够响应不同情景并做出正确的动作但并不适用于从交互中学习这类问题。

对比强化学习和无监督学习:

​ 无监督学习:无监督学习是一个典型的寻找未标注数据中隐含结构的过程

​ 强化学习:目的是最大化收益信号而不是找出数据的隐含结构

强化学习关键特征:带来了独有的挑战——试探与开发的折中权衡

​ 明确的考虑了目标导向的智能体与不确定的环境交互这个问题

​ 强化学习从一个完整的交互式的目标导向的智能体出发,采取相反的思路。所有强化学习的智能体都有一个明确的目标,即能够感知环境的各个方面,并可以选择动作来影响他们的环境。涉及规划必须处理规划和实时动作选择之间的相互影响以及如何获取和改善环境模型的问题。涉及有监督学习时,网网友某些特定因素可以决定对于智能体来说那些能力是重要的,哪些不是。必须对重要的子问题进行单独的考虑和研究。但这些子问题必须在完整的交互式的、目标驱动的智能体问题框架中具有明确而清洗的角色定义,即使完整智能体的各种细节暂时还不知道。

现代强化学习:与其他工程和科学学科之间有实质性的、富有成果的互动。例如强化学习利用参数化进私发解决了运筹学和控制论的研究中的经典的“维数灾难”。强化学习与心理学和神经科学之间也有很强的相互作用。

1.2示例

​ 例子都涉及一个活跃的决策智能体和环境之间的相互作用,再不确定的环境中,智能体想实现一个目标。智能体的动作会影响未来环境的状态进而影响未来的决策和机会。智能体可以利用其经验来改进性能。智能体对任务的知识要么来自于之前的相关人物,要么来自于设计演化。

1.3强化学习要素

四个核心要素:策略、收益信号、价值函数、(可选)对环境建立的模型

策略:定义智能体在特定时间的行为方式,是环境状态到动作的映射。是强化学习智能体的核心。一般来说策略可能是环境所在状态和智能体所采取的动作的随机函数。

收益信号:定义了强化学习中的目标,智能体唯一的目标是最大化长期总收益。收益信号表明了在短时间内什么是好的。

价值函数:表示了从长远的角度看什么是好的。在制定和评估策略时我们最关心的是价值。确定价值要比确定收益难得多,收益基本上是由环境直接给予的,但是价值必须是综合评估,并根据智能体在整个过程中观察到的收益序列重新估计。、

对环境建立的模型:是对环境的反应模式的模拟,它允许对外部环境的行为进行推断。环境模型会被用于做规划。

​ 规划:在真正经历之前,先考虑未来可能发生的各种情景从而预先决定采取何种动作

​ 有模型的方法:使用环境模型和规划来解决强化学习问题的方法

​ 无模型的方法:直接地试错

1.4局限性和适用范围

状态:既作为策略和价值函数的输入,又同时作为模型的输入和输出。

进化方法:与生物进化过程类似如果策略空间充分小,或者可以很好地机构化已找到好的策略或者有充分时间来搜索,那么进化算法是有效的,进化方法在哪些智能体不能精确感知环境状态的问题上具有优势。

强化学习方法是与环境互动中学习的一类方法而进化方法不是,进化方法忽视了强化学习问题中的一些有用结构:它们忽略了所求策略是状态到动作的函数这一事实;也没有注意个体在生命周期中都经历过哪些状态,采取了哪些动作。

1.5井字棋

两个玩家轮流在一个3x3的棋盘上下棋。一方下X,另一方下O,直到其中一方在行、列、对角线上占据三个子(如右图中的X玩家),则该方获胜。如果棋盘被占满后没有任何一方有三个连着的棋子,那么游戏为平局。

经典的博弈论中经典的“极大极小”算法是不正确的,因为它假设了对手会按照某种特定的方式来玩游戏。一个极大极小的玩家从不会让游戏陷人可能会输的状态,而事实上如果遇到一位技术不佳的对手,以这些状态也能够取胜。序列决策问题的经典优化方法,比如动态规划,可以对任意的某个对手计算出一个最优的解,但是需要输入对手的完整明确的说明,包括对手在每种状态下下每一步棋的概率。但我们应当假设这样的先验信息对于问题来说并不可知,因为这与实践中遇到的大部分问题不符。

经典的进化方法会在策略空间中进行爬山搜索,不断地生成和评估新的尝试以获得提升最大的策略。或者,可能使用类似遗传算法的进化方法来维护和评估由一组策略构成的集合。

价值函数求解:

建立一个数字表,每一格表示一个游戏可能的状态。每一个数字表示对获胜概率的最新估计。这个估计就是该状态的价值,整个表是通过学习得到的价值函数。
描述什么一点不想描述还描述

状态更新过程:
V ( S t ) ← V ( S t ) + α [ V ( S t + 1 ) − V ( S t ) ] V(S_t) \leftarrow V(S_t)+ \alpha [V(S_{t+1})-V(S_t) ] V(St)V(St)+α[V(St+1)V(St)]
α \alpha α 是一个小的正分数称为补偿参数影响学习速率。

评估策略的进化方法需要固定一个策略并且和对手博弈多次,或者与对手的仿真模型进行大量模拟博弈。获胜的频率是对该策略的获胜概率的无偏估计,可以用来指导下一次的策略选择。但每一次策略的改变都基于很多次博弈,只有每局比赛最后的结果会被考虑,而在博中间发生的事情将会被忽略。

强化学习强调在与环境交互的过程中学习,强化学习有明确的目标,并且正确的动作需要规划和预测,这样才能考虑每次选择的长期影响

1.6本章小结

强化学习是一种对目标导向的学习与决策问题进行理解和自动化处理的计算方法。它强调智能体通过与环境的直接互动来学习,而不需要可效仿的监督信号或对周围环境的完全建模,强化学习使用马尔可夫决策过程的形式化框架,使用状态、动作和收益定义学习型智能体与环境的互动过程。使用价值函数,是强化学习方法与进化方法的不同之处。

1.7强化学习的早期历史

两条主线:一条关注的是源于动物学习心理学的试错法。

​ 一条关注最优控制问题以及使用价值函数和动态规划的解决方案。

“最优控制”这一术语最早使用于20世纪50年代末,用来描述设计控制器的问题其设计的目标是使得动态系统随时间变化的某种度量最小化或最大化。在20世纪50年代中期由 Richard Bellman 和其他一些人开发了针对这一问题的其中一种方法,运用了动态系统状态和价值函数,定义了贝尔曼方程。Bellman(1957b)也提出了最优控制问题的离散随机版本,被称作马尔可夫决策过程,Ronald Howard(1960)又设计出了MDP的策略迭代方法。

动态规划被普遍认为是解决一般随机最优控制问题的唯一可行方法。它遭受了贝尔曼所谓的“维度灾难”,动态规划方法与在线学习的首次完全整合出现在hrisWatkins1989年的研究里,他用MDP形式对待强化学习的方式至今仍被广泛使用。

试错学习思想可以追溯到19世纪50年代 Alexander Bain“摸索和实验”学习方法的讨论,可以更具体地追溯到1894年英国动物行为学家和心里学家 Conway Lloyd Morgan使用这个术语来描述他对动物行为的观察实验。在动物学习领域,“强化”一词从 Thorndike 提出效应定律之后开始使用,最早出现在巴甫洛夫的条件反射著作的1927年英文译本中。试错学习思想在计算机中的应用最早出现于关于人工智能可能性的思考中。许多精巧的电子机械设备被制造出来演示试错学习。最早的应该是1933年由ThomasRoss 制造的一台机器,它能够穿越迷宫且通过开关设置记住路线。在1951年,已经因为“机械乌龟”(Walter,1950)成名的W.Grey Walter 又制造了能够简单学习的版本(Walter,1951)。许多精巧的电子机械设备被制造出来演示试错学习。最早的应该是1933年由ThomasRoss 制造的一台机器,它能够穿越迷宫且通过开关设置记住路线。在1951年,已经因为“机械乌龟”(Walter,1950)成名的W.Grey Walter 又制造了能够简单学习的版本(Walter,1951)。

Widrow、Gupta和Maitra(1973)修改了Widrow和Hof 的最小均方误差(LMS,Least-Mean-Square)算法,以建立一种强化学习规则,其可以从成功和失败信号中而不是从训练例子中学习。评判器”(critic)这个术语就是从 Widrow、Gupta和 Maitra 的论文中衍生出来的。

对于自动学习机的研究对试错学习发展到现代强化学习有着更直接的影响。这类方法用于解决非关联的、纯选择性的学习问题,又被称为k臂赌博机算法.

第三条主线时序查分学习

时序差分学习的概念部分源于动物学习心理学,特别是次级强化物的概念。Shannon 认为计算机可以利用一个估值函数通过编程玩棋类游戏,并且也许能够通过在线修改这个函数来进一步提升性能。直到1972年Klopf将试错学习与时序差分学习的一个重要部分相结合。他发展了“广义强化”的概念,即每一个组件(字面上指每一个神经元)将其所有的输入视为强化项:将兴奋的输人视为奖励项,将抑制的输人视为惩罚项。而另一方面,Klopf将这个思想与试错学习联系起来,并且将它和动物学习心理学的大量经验数据相关联。Sutton(1978a,1978b,1978c)和Barto优化了这些想法并基于时序差分学习建立了一个经典条件反射的心理学模型之后又有一些其他的有影响力的基于时序差分学习的经典条件反射的心理学模型跟进。IanWitten的一篇论文(1977,1976a),它是已知最早的一篇包含时序差分学习规则的论文他提出了我们现在称为TD(0)的方法,将其作为自适应控制器的一部分来处理马尔可夫决策过程。1989年,ChrisWatkins提出的Q学习将时序差分学习和最优控制完全结合在了一起。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值