强化学习在流程工业应用思考

爱科技Ai

于 2023-10-21 18:41:21 发布

阅读量267

点赞数

文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/civiljiao/article/details/133872323

版权

本文探讨了在处理长迟滞化学反应场景中的模型预测控制(MPC)与强化学习(RL)结合问题。传统奖励设置不足以应对长迟滞，如何设计通用的奖励机制以平衡控制精度和能耗是一个挑战。文章强调了考虑停留时间和反应过程中的不确定性在设定奖励和决策时的重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

场景：应用于MPC、PID控制不了长迟滞化学反应场景。

目前研究：大部分文章都是考虑结合MPC，利用RL对MPC的参数进行调节，进而达到控制的目的。另外奖励方面，要么就是按照纯控制思路，另外一种也就是先控制后优化。

上面的公式只考虑控制层面，如果误差小于0.05，奖励+10；这一步的误差大于上一步误差，那么奖励-1。

如果奖励考虑优化，那么就会加入能耗这个指标，定奖励时，控稳的权重要远大于能耗的权重，这样效果会更好。

奖励：上述的奖励设定感觉还是短迟滞反应的奖励设定，长迟滞反应的奖励你该怎么设定，这个还需要考虑，如果想做一个较通用化的软件来训练RL的模型，也逃避不了奖励的设定、态势的选取。

难点：长迟滞导致当前的决策影响后几分钟的数据变化，但是这个时间也就是“停留时间”在反应的前中后期也不一样。另外反应过程中反应程度你是不可控的，导致几分钟后的数据是因为当前的这个决策所影响的判断较难下定量的结论。

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。