莫烦python简历_强化学习传说：第一章模仿学习-CSDN博客

本文链接：https://blog.csdn.net/weixin_36209301/article/details/112025994

本文介绍了强化学习的基础知识，通过解析伯克利深度强化学习CS294和斯坦福强化学习CS234的课程，重点探讨了模仿学习，包括行为克隆和DAgger算法。文章提供了课程的环境准备指南，如安装Gym和MuJoCo，并展示了行为克隆的网络结构和DAgger的工作原理，强调了DAgger在改善模仿学习效果上的优势。

摘要由CSDN通过智能技术生成

Hello，大家好，这里是糖葫芦喵喵~！

经过了几个月的奋斗，大家是不是对炼丹已经有所体会了呢？从今天起我们要进入机器学习的一个非常引人注目的领域——强化学习(reinforcement learning)啦！强化学习部分理论较强，不是很好理解。但是不要怕，相信只要读懂了代码就能够理解了！那么，从这里开始为大家带来伯克利深度强化学习CS294 Fall 2017以及斯坦福强化学习CS234 2017的Assginment解析，还请大家多多指教~！

那么，继续我们的炼丹旅程吧~！

Part 0 CS294与CS234 Assignment简介与环境准备

1. CS294

在Fall 2017的课程组织上有了非常重大的改进！(以前喵喵是不会直接推荐这门课程的，现在强烈推荐！)

CS294 Fall 2017 基本可以分为DRL介绍+模仿学习、model free、model based、Exploration+迁移+多任务+Meta-learning等四大部分。课程需要有一点强化学习和机器学习基础，建议先看完

CS294一共有四个很有趣的assignment，分别是：模仿学习(行为克隆和DAgger)、策略梯度(AC算法)、DQN和基于模型的Model Predictive Control(MPC)。assignment代码量不大，但是很具有探索性，能够在帮助你理解相关算法的同时让你对强化学习环境

2. CS234

CS234: Reinforcement Learning，是斯坦福大学的强化学习课程，该课程从强化学习介绍与基础知识(MDP、MC、TD)开始，主要讲解了model free、Exploration和策略梯度。前半部分和

CS234有三个assignment，分别是：R-max。其中assignment 1恰好是CS294 assignment所没有体现的部分，可以作为补充。assignment 2 的DQN框架写的很漂亮(虽然一部分是借鉴CS294的2333)，值得详细阅读！

3. 环境准备

建议使用ubuntu，windows[all]模式未安装成功(简易模式无法进行atari实验)。

首先安装以下包：