强化学习7日打卡营-世界冠军带你从零实践——心得体会

最新推荐文章于 2024-07-06 22:59:16 发布

LeonardoTime

最新推荐文章于 2024-07-06 22:59:16 发布

阅读量253

点赞数

分类专栏：强化学习文章标签：机器学习深度学习 paddlepaddle

本文链接：https://blog.csdn.net/LeonardoTime/article/details/106937881

版权

强化学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

强化学习7日打卡营-世界冠军带你从零实践——作业问题解决和心得体会

- 环境搭建
- 解决作业中的疑问

近期参加学习该课程，老师和班主任都是美女，学习也很有动力。课程主要讲解了强化学习经典算法：Q-learning、Sarsa、DQN、Policy、 Gradient、DDPG。下面是遇到的一些故障和心得。

环境搭建

!pip install gym 该指令安装环境库，“ ！”是在环境下运行，相当于在windows系统中cmd命令下运行。检查是否配置：pip list | grep gym （pip list 查找python已安装库，grep是Linux的查找）
pip instal 安装库时，若库下载很慢时可选择数据下载源，-i 选择数据下载源。
例：pip install gym -i https://pypi.tuna.tsinghua.edu.cn/simple
常见数据源地址为：

清华：https://pypi.tuna.tsinghua.edu.cn/simple
阿里云：http://mirrors.aliyun.com/pypi/simple
中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple
华中理工大学：http://pypi.hustunique.com
山东理工大学：http://pypi.sdutlinux.org
豆瓣：http://pypi.douban.com/simple

github文件下载慢的原因是从国内访问Amazon库非常慢，可以通过代理的方式、刷新 DNS 缓存，加快速度，但是更简单粗暴的方式是在“码云”上下载，国内的仓库库分享：https://gitee.com/PaddlePaddle/

解决作业中的疑问

作业二中训练后的路径
作业二中训练后的路径：
作业三 DQN 相对作业二中增加了神经网络的概念，其中超参数的调节就是对神经网络的调试。神经网络可以不用很复杂，学习率合适一样可以达到很好的效果。我针对两个128的全连接层设置的学习率是0.007效果还是不错的。
作业四 PG解决Pong
在训练时，训练时间长，假如网络不稳定，或者什么不明原因，网一掉。。。唉。。。
所以训练时，保存模型，还是很好用的，下次加载继续训练。
在这里插入图片描述
大作业：使用DDPG解决四轴飞行器悬浮任务
环境的输入是一个16维的向量；
输出是一个4维的向量（代表每一个轴的电压）
ActorModel类输入ops，输出的是logits概率
CriticModel类输入环境和动作，返回奖励
QuadrotorModel, DDPG, QuadrotorAgent 三者嵌套：在这里插入图片描述
在Step4 Training && Test（训练&&测试）中：
在action = np.squeeze(action)后，需要加上一句代码：
action = np.clip(action, -1.0, 1.0)
将动作概率限定在（-1,1）之内

LeonardoTime

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
强化学习7日打卡营-世界冠军带你从零实践——心得体会

强化学习7日打卡营-世界冠军带你从零实践——作业问题解决和心得体会环境搭建解决作业中的疑问近期参加学习该课程，老师和班主任都是美女，学习也很有动力。课程主要讲解了强化学习经典算法：Q-learning、Sarsa、DQN、Policy、 Gradient、DDPG。下面是遇到的一些故障和心得。环境搭建!pip install gym 该指令安装环境库，“ ！”是在环境下运行，相当于在windows系统中cmd命令下运行。检查是否配置：pip list | grep gym （pip list
复制链接

扫一扫