终于把第一次作业完成了,不过实现效果貌似很差,调不好了就这样吧。
Section 1
第一部分先装环境。没啥好说的。我用的anaconda直接pip install 对应的作业1文件夹里的requirement.txt。其中MuJoCo需要激活个key,可以去官网使用学生邮箱申请一个免费的,时间为一年。
这次要用的6个环境如下,盗图一张:
Section2
进入正题。这次的作业是完成模仿学习。在gym仿真环境里,依赖于MoJoCo的模拟器。提供了6个环境的专家策略,运行run_expert.py生成对应的状态动作的数据,然后根据这些数据来进行模仿学习。
第一步自然是看懂run_expert.py的代码然后运行啦。将产生的数据放进expert_data文件夹。利用的是默认的参数,20个rollouts,每个最多1000步。因此有20000个对应的状态动作对。当然有的任务里走不到1000步一次rollout。
第二步进行仿真学习:
仿真学习的思想很简单,本质上就是个监督学习。根据给定的状态-动作对数据,拟合那个策略函数,其实就是个回归问题。
第一步里面已经根据专家策略生成了对应的数据,只需要利用这些数据进行一个回归即可。啪啪啪写一通,大概用2到3层全连接层即