第一章 概述

概述

1.强化学习的基本概念

强化学习主要研究这样一类问题: 具有一定思考和行为能力的个体(Agent)在与其所处的环境(Environment)进行交互的过程中,通过学习策略达到收获最大化或实现特定的目标。其中,“个体”处在“环境”中,在某时刻可以有一个对自身的认识,这可以表示成个体自身在该时刻的状态(State) 。个体在某时刻可以向环境实施一个行为(Action) ,环境会因为这一行为做出相应的改变并给予个体定形 式的反馈,个体接收到这个反馈后可以建立“自身状态”“所施行为”及“所得反馈”之间的联系,作为自身记忆的一部分给 后续的决策提供参考。个体在不同状态下向环境施加的各种不同行为则构成了个体与环境交互的“策略”(Policy)。个体策略的构建与个体的目的密切相关。环境给予个体的反馈通常是一个数值(由一个标量确定的数值),表达环境对于个体的奖励或惩罚的程度,可称之为“奖励”(Reward) 。个体构建策略的目的就是要争取通过与环境的交互而获得尽可能多的累积奖励值。
为了便于理解环境的动力学特征和个体构建的模型之间的关系,我们可以用人类认识宇宙的过程来做个类比:宇宙相当于环境,人类相当于个体。宇宙以什么样的规律运行取决于宇宙自身的动力学特征,人类可能永远无法完全弄清楚。但是几百年来,从早期的“地心说”到随后的“日心说”、从牛顿的三大定律到爱因斯坦的相对论等都是人类建立的试图解释宇宙动力学特征的模型。牛顿的三大定律没有爱因斯坦的相对论完善准确,这是因为人类的认识在进步,同时人类的观测水平在进步,人类构建的认识宇宙的模型也在不断发展。
个体通过与环境进行交互,逐渐改善其行为的过程称为学习(Learning)过程。当个体对于环境如何工作有了一定的认识, 在与环境进行实际的交互前,模拟分析个体与环境交互情况的过程称为规划(Planing)过程。一个常用的强化问题解决思路是让个体先学习环境如何工作,在具备了一定的认识环境的能力后, 利用这个能力进行一定的规划工作, 两者相互结合来
解决问题,这其实与人类解决实际问题的思路是比较一致的。
当具备一定智能水平的个体在继续与环境进行交互时,它也可能会遇到一些困惑。 比如,个体处于某一状态时, 它会根据自身学习所得的能力来决策产生一个建议的行为,而舍弃其他的可选行为。这种方式似乎是明智的,但又隐藏着很大的风险。个体如何能确定自己产生的建议行为就一定是而 且总是最优的行为呢?无法确定。首先这要求个体必须在同一个状态下尝试过相当多次的非最优行为,否则个体推荐的最优行为就是不可靠的,但是尝试过多的非最优行为需要相当多次的学习过程,而且会降低个体的学习效率,这通常是不现实的。此外,环境本身及其动力学特征可能也不是一成不变的, 一旦发生变化,那么先前个体得到的最优行为可能
就不再是环境变化后的最优行为了。这种困惑的背后其实是关于个体的探索(Exploration) 与利用(Exploitation) 之间的矛盾。个体通常要在偏好探索和偏好利用之间取得一个平衡。偏好探索指的是,个体在与环境进行交互的过程中,会偏好于从不是自身认为最优的其他可选行为中选取一个并作用于环境:偏好利用则相反,这样的个体更倾向于选择实施自身认为最优的行为。举个生活中的例子:你去某个餐饮一条街就餐, 偏好探索意味着你对自己之前没去过的新餐厅感兴趣,很可能最终会去一家以前没有去过的新餐厅体验,或者选择以前去过但感觉不好的餐厅,再去看看这个餐厅有没有什么积极的变化;偏好利用意味着你更愿意去那个以往去过且体验最佳的餐厅。很显然,这两种做法是一对矛盾, 但对解决强化学习问题非常重要。没有探索,个体就没有机会体验可能发生的变化,进而无法找到可靠的最优解:没有利用则意味着个体始终处在各种选择过程中,无法固定到最优的一个结果中。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值