深度强化学习cs294 HW1: Imitation Learning

最新推荐文章于 2024-08-01 15:41:40 发布

无所知

最新推荐文章于 2024-08-01 15:41:40 发布

阅读量2.1k

点赞数

分类专栏：强化学习深度强化学习文章标签： cs294

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_25037903/article/details/84501667

版权

本文介绍了在cs294课程中完成的第一次作业，涉及模仿学习和Dagger算法。作者通过gym与MuJoCo模拟器进行实验，虽然模仿学习效果不佳，但尝试了Dagger算法以改善策略。尽管调整超参数，最终效果仍远逊于专家策略。代码已上传至GitHub，同时推荐了一个效果更好的实现。

摘要由CSDN通过智能技术生成

终于把第一次作业完成了，不过实现效果貌似很差，调不好了就这样吧。

Section 1

第一部分先装环境。没啥好说的。我用的anaconda直接pip install 对应的作业1文件夹里的requirement.txt。其中MuJoCo需要激活个key，可以去官网使用学生邮箱申请一个免费的，时间为一年。

这次要用的6个环境如下，盗图一张：
在这里插入图片描述

Section2

进入正题。这次的作业是完成模仿学习。在gym仿真环境里，依赖于MoJoCo的模拟器。提供了6个环境的专家策略，运行run_expert.py生成对应的状态动作的数据，然后根据这些数据来进行模仿学习。

第一步自然是看懂run_expert.py的代码然后运行啦。将产生的数据放进expert_data文件夹。利用的是默认的参数，20个rollouts，每个最多1000步。因此有20000个对应的状态动作对。当然有的任务里走不到1000步一次rollout。

第二步进行仿真学习：
仿真学习的思想很简单，本质上就是个监督学习。根据给定的状态-动作对数据，拟合那个策略函数，其实就是个回归问题。
在这里插入图片描述
第一步里面已经根据专家策略生成了对应的数据，只需要利用这些数据进行一个回归即可。啪啪啪写一通，大概用2到3层全连接层即

最低0.47元/天解锁文章

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。