强化学习预测和控制

1、免模型预测

具体说来,有模型强化学习尝试先学习一个环境模型,它可以是环境的动态(例如,给定一个状态和一个动作,预测下一个状态)或奖励(给定一个状态和一个动作,预测奖励),即前面小节所讲的状态转移概率和奖励函数。一旦有了这个环境模型,智能体可以使用它来计划最佳的行动策略,例如通过模拟可能的未来状态来预测哪个动作会导致最大的累积奖励。它的优点很明显,即可以在不与真实环境交互的情况下进行学习,因此可以节省实验的成本。但缺点是,这种模型往往是不完美的,或者是复杂到难以学习和计算。

 而免模型则直接学习在特定状态下执行特定动作的价值或优化策略。它直接从与环境的交互中学习,不需要建立任何预测环境动态的模型。其优点是不需要学习可能是较为复杂的环境模型,更加简单直接,但是缺点是在学习过程中需要与真实环境进行大量的交互。注意,除了动态规划之外,基础的强化学习算法都是免模型的。

前面提到很多经典的强化学习算法都是免模型的,换句话说在这种情况下环境的状态转移概率是未知的,这种情况下会去近似环境的状态价值函数,这其实跟状态转移概率是等价的,我们把这个过程称为预测。换句话说,预测的主要目的是估计或计算环境中的某种期望值,比如状态价值函数 或动作价值函数 。例如,我们正在玩一个游戏,并想知道如果按照某种策略玩游戏,我们的预期得分会是多少。

 而控制的目标则是找到一个最优策略,该策略可以最大化期望的回

强化学习(Reinforcement Learning)模型预测控制(Model Predictive Control)是两种常用的控制策略。 强化学习是一种通过试错学习来优化控制策略的方法。在无模型强化学习中,通过与环境的交互来学习最佳的控制策略,而无需事先建立系统的数学模型。这种方法的优点是在线计算量较小,并且在理论上可以获得最优控制策略。然而,应用无模型强化学习来获得生物过程的最佳进料策略可能会面临一些实际问题,例如需要大量的数据、探索过程可能会损害工艺性能、无法明确施加状态约束、对超参数敏感等。此外,由于成本或报酬的变化,可能需要重新学习控制策略,而且生成的控制策略可能不直观或不符合操作员的直觉标准。[1] 模型预测控制是一种基于系统动力学模型的控制方法。通过建立系统的数学模型,可以预测未来的系统行为,并根据这些预测结果来优化控制策略。在模型预测控制中,通常会选择一个相对不错的控制量作为状态的近似,这样可以得到较好的控制效果。这种方法通常涉及监督学习,即通过专家演示来确定控制量。[2]在生物过程中,虽然建立的模型可能不准确,但仍然可以用于计算近似最优输入,从而提供有意义的数据。为了改进控制策略并减少数据需求,可以将无模型强化学习模型预测控制相结合,利用系统动力学的先验知识来提供可用的模型,并通过较少的数据来改进控制策略。[3]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值