深度强化学习cs294 HW1: Imitation Learning

本文介绍了在cs294课程中完成的第一次作业,涉及模仿学习和Dagger算法。作者通过gym与MuJoCo模拟器进行实验,虽然模仿学习效果不佳,但尝试了Dagger算法以改善策略。尽管调整超参数,最终效果仍远逊于专家策略。代码已上传至GitHub,同时推荐了一个效果更好的实现。
摘要由CSDN通过智能技术生成

终于把第一次作业完成了,不过实现效果貌似很差,调不好了就这样吧。

Section 1

第一部分先装环境。没啥好说的。我用的anaconda直接pip install 对应的作业1文件夹里的requirement.txt。其中MuJoCo需要激活个key,可以去官网使用学生邮箱申请一个免费的,时间为一年。

这次要用的6个环境如下,盗图一张:
在这里插入图片描述

Section2

进入正题。这次的作业是完成模仿学习。在gym仿真环境里,依赖于MoJoCo的模拟器。提供了6个环境的专家策略,运行run_expert.py生成对应的状态动作的数据,然后根据这些数据来进行模仿学习。

第一步自然是看懂run_expert.py的代码然后运行啦。将产生的数据放进expert_data文件夹。利用的是默认的参数,20个rollouts,每个最多1000步。因此有20000个对应的状态动作对。当然有的任务里走不到1000步一次rollout。

第二步进行仿真学习:
仿真学习的思想很简单,本质上就是个监督学习。根据给定的状态-动作对数据,拟合那个策略函数,其实就是个回归问题。
在这里插入图片描述
第一步里面已经根据专家策略生成了对应的数据,只需要利用这些数据进行一个回归即可。啪啪啪写一通,大概用2到3层全连接层即

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值