强化学习和控制

在强化学习中,我们将提供一个奖赏函数,当目标完成的好时,便奖赏;当目标完成的不好时,就惩罚。鞭策算法走一条良好的道路。

马尔科夫决策过程(MDP)

一个Markov decision process是一个元组 (S,A,Psa,γ,R) 。其中:

  • S 是状态集。比如在自动直升机驾驶中, S 就是直升机的所有可能位置,方向。
  • A 是行动。比如所有你能控制直升机的方向。
  • Psa 是状态转移概率。对于每个状态 sS 每个行动 aA Psa 给出了当我们在状态 s 采取行动 a 时,我们将会转移到的状态的分布。
  • γ[0,1) 称为阻尼系数。
  • R:SA>RealNumber 叫做回报函数。

MDP的动态过程:从初始状态 s0 开始,采取行动 a0A ;MDP过程向前推进,按分布 s1Ps0a0 随机转换到下一个状态 s1 。以此类推,不断转换。用流程可以表示为:
s0>(a0)>s1>(a1)>s2>(a2)>...
定义其总花费:
R(s0,a0)+γR(s1,a1)+γ2R(s2,a2)+...
我们要做的是选择随时间变化的行动,来使得总花费的期望值最大:
max,E[R(s0,a0)+γR(s1

  • 0
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
强化学习(Reinforcement Learning)和模型预测控制(Model Predictive Control)是两种常用的控制策略。 强化学习是一种通过试错学习来优化控制策略的方法。在无模型强化学习中,通过与环境的交互来学习最佳的控制策略,而无需事先建立系统的数学模型。这种方法的优点是在线计算量较小,并且在理论上可以获得最优控制策略。然而,应用无模型强化学习来获得生物过程的最佳进料策略可能会面临一些实际问题,例如需要大量的数据、探索过程可能会损害工艺性能、无法明确施加状态约束、对超参数敏感等。此外,由于成本或报酬的变化,可能需要重新学习控制策略,而且生成的控制策略可能不直观或不符合操作员的直觉标准。[1] 模型预测控制是一种基于系统动力学模型的控制方法。通过建立系统的数学模型,可以预测未来的系统行为,并根据这些预测结果来优化控制策略。在模型预测控制中,通常会选择一个相对不错的控制量作为状态的近似,这样可以得到较好的控制效果。这种方法通常涉及监督学习,即通过专家演示来确定控制量。[2]在生物过程中,虽然建立的模型可能不准确,但仍然可以用于计算近似最优输入,从而提供有意义的数据。为了改进控制策略并减少数据需求,可以将无模型强化学习和模型预测控制相结合,利用系统动力学的先验知识来提供可用的模型,并通过较少的数据来改进控制策略。[3]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值