CNTK与深度强化学习笔记之一：环境搭建和基本概念

本文链接：https://blog.csdn.net/cuiwader/article/details/77336156

本文介绍了将微软的CNTK框架应用于深度强化学习，特别是DQN算法。首先，讲述了硬件需求、开发环境和CNTK的安装步骤，特别强调了在Ubuntu上使用CUDA和cuDNN的重要性。接着，概述了深度强化学习的基本概念，包括强化学习的挑战、MDP、折扣未来奖励、Q-learning和DQN。文章提到了DeepMind在Atari游戏上的突破，并讨论了Q-learning的Q-table和深度Q网络（DQN）之间的区别，以及解决探索与开发困境的ε-greedy策略。最后，简要提到了深度Q-learning算法的发展和相关优化技术。

摘要由CSDN通过智能技术生成

如需转载，请指明出处。

前言

深度强化学习是人工智能当前的热点，CNTK也是微软力推的深度学习框架，2.x版本比之前有了长足的进步。目前国内将这两者融合起来的文章还不多。因此写作了这个学习笔记，希望能对大家有所帮助。

硬件，开发环境以及CNTK安装

CNTK可能是为数不多的在Windows平台同样支持CUDA和cuDNN加速的框架了。CNTK某些示例，虽然在CPU的环境下面也可以运行，但是速度实在是太慢了。因此推荐支持CUDA的Nvidia GPU，支持列表这里可以查到：CUDA GPUs。从列表中可以看到，如果想要买个游戏本做深度学习，GeForce GTX 1060是移动版本里面最便宜的支持CUDA的GPU。我正是使用了这个型号的游戏本。大概测试了一下CPU和GPU训练的性能差别，在用CNTK的ConvNet的示例训练MNIST时，使用GPU一个Epoch在2秒以内，使用“nvidia-smi -l 1”命令查看GPU的使用率，在95%以上。CPU（i7-7700HQ）需要大概50秒，使用率达到了100%。

开发环境需要在Ubuntu上面（推荐使用Ubuntu 14.04或者Ubuntu 16.04，本文使用的是Ubuntu 16.04），并且推荐使用Anaconda3的最新版本（本文使用的是Anaconda3-4.4.0，Python 3.6版本）。必须用Ubuntu的原因是，官方的DQN示例使用了gym。gym是由OpenAI开发的工具集，提供了强化学习中的环境（environment）接口，用来开发和对比强化学习算法。gym目前只支持Linux（只有有限的环境可以在Windows上面运行）。gym的安装配置官方文档也很清楚了：gym。

需要说明的是，Ubuntu 16.04默认的是开源版本的驱动，不支持GeForce GTX 1060，需要安装Nvidia的官方闭源驱动。我直接使用了Ubuntu的repo，命令"sudo apt-get install nvidia-375"就可以了。如果需要最新的驱动，也可以去Nvidia下载。用apt-get安装的另外一个好处是CUDA也会被一同安装。自己下载驱动的话需要安装CUDA。

CNTK官方文档给出了非常详细的安装过程，这里就不再重复。请参考CNTK的主页： CNTK。本文写作的时候，CNTK的版本是2.1（2017-07-31. CNTK 2.1）。

深度强化学习和DQN

目前我阅读到的，讲解深度强化学习最好的一篇文章来自Tambet Matiisen的DEMYSTIFYING DEEP REINFORCEMENT LEARNING。以下的内容基本上是对这篇文章的精简翻译（去掉少许内容并且加上我自己的理解）。

深度强化学习

2013年12月19日，DeepMind公司在Arxiv上发表了一篇论文：Playing Atari with Deep Reinforcement Learning。论文展示了他们如何使用强化学习，仅仅通过屏幕像素和分数作为奖赏，让电脑玩2600个雅达利的视频游戏。这个结果的意义在于，这些游戏和游戏要达到的目标都是不同的，并且是设计来挑战人类的。论文中提到的模型，不需要任何改变，就可以用来学习七个不同的游戏，并且在其中三个游戏中，模型的成绩比人类还好。这是迈向通用人工智能（强人工智能）的第一步：AI可以适应不同的环境，而不是限定于某个领域，例如玩象棋。发表了这个论文之后，DeepMind立刻就被Google收购了，并且一直引领了深度学习的研究。2015年2月，DeepMind又在自然杂志封面发表了论文