惊呆了的强化学习四旋翼控制

文章介绍了采用PPO强化学习方法训练的四旋翼控制模型,该模型在训练中加入了干扰对抗策略,显示出极强的参数变化和环境迁移适应能力。即使在四旋翼质量、臂长变化或仿真步长调整的情况下,仍能保持优秀控制效果。模型还能成功迁移到具有不同参数的Webots四旋翼模型上,实现稳定飞行。此外,该模型在实物飞行中表现出高鲁棒性,仅依赖传感器数据即可控制四旋翼飞行,无需滤波或额外处理。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

研究强化学习,模型跑出来后,被运行效果惊呆了

强化学习模型

如上篇文章所述,使用PPO强化学习方法,不同的是在训练过程中加入干扰对抗策略,最终跑出策略模型,控制效果让自己吃了一惊。。。

对参数变化的适应

四旋翼控制对参数变化十分敏感,几乎是微小的参数也会改变控制效果,试验过程中改变一下参数,控制效果依然完美:

  1. 四旋翼质量,控制效果无影响,仅产生位置误差;
  2. 四旋翼臂长,控制效果无影响;
  3. 仿真步长,比较吃惊,控制模型能适应33hz(四旋翼模型极限)以上的任意频率控制,甚至变频控制。。。。;
    控制效果均如下图所示

在这里插入图片描述

对环境迁移的适应

也很意外,所训练的环境没有gui,纯数学仿真,参数十分夸张,臂长1.2m质量1.5kg,转动惯量之类的也很夸张,不细说了。
后面将它迁移到webots上的四旋翼,找的是crazyflie的仿真模型,其参数臂长0.06m左右,质量0.045kg,在对坐标系进行对准之后,居然飞稳了,敢不敢信。。悬停时间9分钟,真的稳了,对所有接入参数均没有修改,传感器数据也是直接接入。。
在这里插入图片描述

对实物飞行的鲁棒性

使用esp32芯片生成神经网络,直接拿传感器数据控制,没有滤波,中间一点处理过程没有。。。它又飞起来了。。没有视觉定位,纯传感器。。

在这里插入图片描述
可惜esp32没有内存卡,只记录起飞2s的数据,为弧度值,只能稳。。。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值