百度AI Studio 强化学习7日打卡营总结-by熊本熊

熊本熊种田

于 2020-06-27 01:50:33 发布

阅读量223

点赞数

分类专栏：深度学习文章标签：强化学习神经网络深度学习人工智能机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_40379019/article/details/106977730

版权

深度学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

课程Notebook

第一章、强化学习介绍
- 环境搭建
第二章、基于表格型方法求解RL
- Sarsa
- Q-learning
第三章、基于神经网络方法求解RL
- DQN
第四章、基于策略梯度求解RL
- Policy Gradient
第五章、连续动作空间上求解RL
- DDPG

大作业完成心得

题目：四轴飞行器悬停任务

在这里插入图片描述

四轴飞行器状态简介：

在这里插入图片描述
初始模型（动作固定）：
可以看到当四个螺旋发动机电压值固定时，动作[1.0, 1.0, 1.0, 1.0]，将使无初速度的飞行器垂直向上或向下运动。

训练trick总结：
1.多轮迭代，按训练的情况手动调整学习率

第一轮训练，经过八十万个step,回报终于从-8000多变成正数

在这里插入图片描述
第N轮训练，当效果好时降低学习率。到了后期回报稳定在八千上下

在这里插入图片描述
2.将Actor的输出动作从四个旋翼的电压尽量相似，在前期训练时新增一个调整项，用调整项对四个旋翼的电压做修正，使得4个旋翼的最终电压差异不会太大

最后八千分的交互范例如下，可以看到相比初始固定模型，此时模型已能较快达到悬停。
在这里插入图片描述

熊本熊种田

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
百度AI Studio 强化学习7日打卡营总结-by熊本熊

百度AI Studio 强化学习7日打卡营总结-by熊本熊课程Notebook大作业完成心得课程Notebook第一章、强化学习介绍环境搭建第二章、基于表格型方法求解RLSarsaQ-learning第三章、基于神经网络方法求解RLDQN第四章、基于策略梯度求解RLPolicy Gradient第五章、连续动作空间上求解RLDDPG大作业完成心得题目：四轴飞行器悬停任务四轴飞行器状态简介：初始模型（动作固定）：可以看到当四个螺旋发动机
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。