强化学习在流程工业应用思考

场景:应用于MPC、PID控制不了长迟滞化学反应场景。

目前研究:大部分文章都是考虑结合MPC,利用RL对MPC的参数进行调节,进而达到控制的目的。另外奖励方面,要么就是按照纯控制思路,另外一种也就是先控制后优化。

上面的公式只考虑控制层面,如果误差小于0.05,奖励+10;这一步的误差大于上一步误差,那么奖励-1。

如果奖励考虑优化,那么就会加入能耗这个指标,定奖励时,控稳的权重要远大于能耗的权重,这样效果会更好。

奖励:上述的奖励设定感觉还是短迟滞反应的奖励设定,长迟滞反应的奖励你该怎么设定,这个还需要考虑,如果想做一个较通用化的软件来训练RL的模型,也逃避不了奖励的设定、态势的选取。

难点:长迟滞导致当前的决策影响后几分钟的数据变化,但是这个时间也就是“停留时间”在反应的前中后期也不一样。另外反应过程中反应程度你是不可控的,导致几分钟后的数据是因为当前的这个决策所影响的判断较难下定量的结论。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值