强化学习-无模型控制(上)

之前的一章了解到了如何在无模型的环境下进行各个状态转移概率以及价值函数的估计。但是仍留有一个疑问,在有模型为前提的动态规划算法中,各个状态的转移概率已知,从而可以通过尝试策略组合找出最优策略。但是实际上我们的蒙特卡洛方法和时间差分方法都只估计除了转移概率和价值函数,并没有对于策略的优化及其方法做出更多的考虑。这也就是我们需要深入讨论的问题——如何优化既有的控制策略。

粗略来说,基于无模型控制的控制策略一般分为在线控制还有离线控制两种,其分别代表在学习的过程中就进行策略优化,抑或是充分学习了各个结点的转移概率之后再进行策略优化。

1.策略优化

在增强学习的控制体系里面,最基本的原理就是获得不同状态-动作对的价值函数,并在新的状态到来之时选择价值函数最高的那个状态-动作对加以执行。这样,控制问题实际上就拆解为了两个子问题:1.如何选取价值最高的状态-动作对。2.如何得到状态-动作对的价值。

1.1.决策问题

我们先来讨论如何选取价值最高的状态–动作对问题,读者可能会疑问:直接选取数值最高的不就好了?但是实际上并不是这样的,偶尔我们还是需要机器做出一些“错误”的决定的。
我们先来看这样一个问题:
假设这样一个场景,在状态 s 时,有两个动作 A , B 可以选择,以下是我们得到的一些经验, A0 代表执行A并获得收益0。

  • A-0
  • B-1
  • A-0
  • B-2
  • B-1
  • A-7
  • A-8
  • A-6
    如果我们只知道前四项经验,我们可能会理所当然的认为选择 A 动作没有收益,从而偏向于在每一次状态 s 的时候都选择 B 动作,但是,这种判断并不一定是正确的。
    然而,在实际的控制过程中,由于经验的数目是有限的,我们很难保证我们获得的经验数据就能够全面说明事物之间状态转换的规律了。所以,有一个思想是:我们不能完全信任我们得到的样本,在进行决策判断的时候,偶尔还是要做一个”错误”的决策,来尝试得到新的样本,这就好像是从学校到家每次都是走的同一条路,你已经习惯了走这条路并且“认为”这条路是离你家最近的,但是偶尔某一天你心血来抽从另一条小路回家,发现这条路竟然更近!我们的决策里面,正是要模拟这一过程,以探索得到最佳的答案。

1.1.1. ε -贪婪探索

为了寻求哪一个策略是最优控制策略,我们总是想给自己的探索留一些余地,正如之前的例子,如果根据经验,擅自把策略选择动作

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
基于pytorch和numpy的贪吃蛇强化学习模型 强化学习(Reinforcement Learning, RL),又称再励学习、评价学习或增强学习,是机器学习的范式和方法论之一。它主要用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。强化学习的特点在于没有监督数据,只有奖励信号。 强化学习的常见模型是标准的马尔可夫决策过程(Markov Decision Process, MDP)。按给定条件,强化学习可分为基于模式的强化学习(model-based RL)和无模式强化学习(model-free RL),以及主动强化学习(active RL)和被动强化学习(passive RL)。强化学习的变体包括逆向强化学习、阶层强化学习和部分可观测系统的强化学习。求解强化学习问题所使用的算法可分为策略搜索算法和值函数(value function)算法两类。 强化学习理论受到行为主义心理学启发,侧重在线学习并试图在探索-利用(exploration-exploitation)间保持平衡。不同于监督学习和非监督学习,强化学习不要求预先给定任何数据,而是通过接收环境对动作的奖励(反馈)获得学习信息并更新模型参数。强化学习问题在信息论、博弈论、自动控制等领域有得到讨论,被用于解释有限理性条件下的平衡态、设计推荐系统和机器人交互系统。一些复杂的强化学习算法在一定程度上具备解决复杂问题的通用智能,可以在围棋和电子游戏中达到人类水平。 强化学习在工程领域的应用也相当广泛。例如,Facebook提出了开源强化学习平台Horizon,该平台利用强化学习来优化大规模生产系统。在医疗保健领域,RL系统能够为患者提供治疗策略,该系统能够利用以往的经验找到最优的策略,而无需生物系统的数学模型等先验信息,这使得基于RL的系统具有更广泛的适用性。 总的来说,强化学习是一种通过智能体与环境交互,以最大化累积奖励为目标的学习过程。它在许多领域都展现出了强大的应用潜力。
强化学习(Reinforcement Learning)和模型预测控制(Model Predictive Control)是两种常用的控制策略。 强化学习是一种通过试错学习来优化控制策略的方法。在无模型强化学习中,通过与环境的交互来学习最佳的控制策略,而无需事先建立系统的数学模型。这种方法的优点是在线计算量较小,并且在理论上可以获得最优控制策略。然而,应用无模型强化学习来获得生物过程的最佳进料策略可能会面临一些实际问题,例如需要大量的数据、探索过程可能会损害工艺性能、无法明确施加状态约束、对超参数敏感等。此外,由于成本或报酬的变化,可能需要重新学习控制策略,而且生成的控制策略可能不直观或不符合操作员的直觉标准。[1] 模型预测控制是一种基于系统动力学模型控制方法。通过建立系统的数学模型,可以预测未来的系统行为,并根据这些预测结果来优化控制策略。在模型预测控制中,通常会选择一个相对不错的控制量作为状态的近似,这样可以得到较好的控制效果。这种方法通常涉及监督学习,即通过专家演示来确定控制量。[2]在生物过程中,虽然建立的模型可能不准确,但仍然可以用于计算近似最优输入,从而提供有意义的数据。为了改进控制策略并减少数据需求,可以将无模型强化学习模型预测控制相结合,利用系统动力学的先验知识来提供可用的模型,并通过较少的数据来改进控制策略。[3]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值