px4与simulink搭建ppo在环训练平台,神经网络飞控
ppo训练的方式为在线训练,在线训练的好处在于其存在2个网络,以降低对环境的拟合程度,也正因如此,可以使用ppo old网络作为试探网络,将其上传至px4飞控控制环作为数据收集的试探网络。而上午机则作为训练器,在一定时间步长后对网络进行更新,完成近似于在线自适应控制器的强化学习方法。
其核心在于对网络结构的解读与代码重写,好在作为随机梯度,对输出的误差要求不高,因此也能够实现在线训练过程。不同于一般神经网络结构,ppo推理过程还包含一个随机状态选取过程,这通常需要单独的处理,将其加载到网络输出端,进而得到需
原创
2022-12-06 20:00:24 ·
880 阅读 ·
0 评论