【论文复现】Safe Exploration in Model-based Reinforcement Learning using Control Barrier Functions

记录一下近期的思考和工作,同时也希望督促自己不要懈怠。
有疑问的地方大家一起讨论,有不正确的地方大家积极指正。

论文简述

2021年挂在ArXiV上面的一篇文章。
文章的主要创新点在于:将ADP和CBF函数结合,用于实现在线的状态约束最优控制。作者还有一篇文章是CDC2020的,也是考虑ADP和CBF的结合,不过CDC那篇文章主要是将关于状态约束的Barrier Function 放到ADP的rewardfunction里面,而这篇文章是将safe control 和ADP的control分开来设计的,并分析了系统的稳定性。注意:CBF文献里大多是作为QP求解的约束条件来设计控制器,一般不能证明稳定性,现在也开始有一些文献提供了理论分析。

文章动机

ADP和CBF的结合很少,控制系统的状态约束一般是用barrier function,最早的ADP-CBF算法是我上一篇文章提到的,不过那是用off-policy PI计算的。

绪论里面最需要注意的一段话:
To this end, we propose a new class of CBFs based on the Lyapunov-like barrier functions studied in [11], termed Lyapunov-like CBFs (LCBFs), that retain the important properties of CBFs for making safety guarantees while possessing desirable Lyapunov-like qualities that become useful when studying system stability. Inspired by approaches such as [6]

文章根据以上的动机提出了LCBF函数,这也是文章的难点,有几个疑问:
1、这样将安全控制器和最优控制器分开计算,为什么还是能保证安全稳定性。虽然文章提供了理论分析,但我还是感觉比较牵强。
2、文章的仿真里面所举的例子本身就是一个稳定的系统,如果是一个不稳定的例子呢,这样安全控制器和最优控制器之间会不会相互干扰呢。
3、参数 c b c_b cb 的选取很重要,但是没有提供一个可靠的依据。直观来看的话,如果 c b c_b cb选的足够小,安全控制器的性能肯定会减弱,并最终难以保证状态约束,但是这应该怎么选呢
4、文章最后期望将ADP+RCBF结合,来克服系统的不确定性,这应该如何实现,暂时我也不太明白。
5、CBF的文献我看的还是比较浅显,后续深入了解后再补充一下

仿真复现结果

只是仿真了部分结果。对应文章的凸约束

参考文献:

1 Safe Exploration in Model-based Reinforcement Learning using
Control Barrier Functions

2 A general safety framework for learning-based control in uncertain robotic systems(文章的参考文献2)

3 End-to-end safe reinforcement learning through barrier functions for safety-critical continuous control tasks(文章的参考文献6)

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
最新结果:
这几天一直在改进上文的算法,终于有了新的结果。
上文的控制器在形式上是有不足的,通过修正可以得到更好的近似最优的安全控制器。
附上仿真图,后续整理一下结果,可以把初稿写出来了。
在这里插入图片描述
在这里插入图片描述

  • 3
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 14
    评论
深度学习在语义道路场景的多模态融合中的探索是一项研究任务,目的是通过结合多种视觉和感知模态的信息,提升对道路场景的语义理解能力。 在这个任务中,我们使用深度学习的方法来处理不同模态的数据,如图像、激光雷达和 GPS 等。我们首先将这些模态的数据进行预处理,将其转换为神经网络可以处理的格式。然后,我们构建深度神经网络模型,用于将这些模态的信息进行融合。这种融合可以是级联式的,也可以是并行式的,即同时处理多个模态,以充分利用不同模态数据之间的相关性。 在模型的训练过程中,我们使用大量的标注数据,将不同模态数据与其对应的语义标签进行匹配。通过反向传播算法,我们可以优化模型参数,使其能够准确地预测道路场景的语义信息。 深度学习的多模态融合方法在语义道路场景中有广泛的应用。通过结合不同模态的信息,我们可以更好地理解道路场景中的障碍物、车辆、行人等不同元素。这种融合方法还可以提高对不同道路环境的适应性,使得我们的模型在城市、乡村等不同场景中都能够有效地工作。 总之,深度学习的多模态融合方法对于道路场景的语义理解具有重要意义。通过结合多种视觉和感知模态的信息,我们可以提高对道路场景的认知能力,为自动驾驶、智能交通等领域的发展提供有力支持。
评论 14
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值