场景:应用于MPC、PID控制不了长迟滞化学反应场景。
目前研究:大部分文章都是考虑结合MPC,利用RL对MPC的参数进行调节,进而达到控制的目的。另外奖励方面,要么就是按照纯控制思路,另外一种也就是先控制后优化。
上面的公式只考虑控制层面,如果误差小于0.05,奖励+10;这一步的误差大于上一步误差,那么奖励-1。
如果奖励考虑优化,那么就会加入能耗这个指标,定奖励时,控稳的权重要远大于能耗的权重,这样效果会更好。
奖励:上述的奖励设定感觉还是短迟滞反应的奖励设定,长迟滞反应的奖励你该怎么设定,这个还需要考虑,如果想做一个较通用化的软件来训练RL的模型,也逃避不了奖励的设定、态势的选取。
难点:长迟滞导致当前的决策影响后几分钟的数据变化,但是这个时间也就是“停留时间”在反应的前中后期也不一样。另外反应过程中反应程度你是不可控的,导致几分钟后的数据是因为当前的这个决策所影响的判断较难下定量的结论。