在Thinkpad X260上运行一个CNN图像分类的样例程序时,发现速度特别慢,迭代一轮要将近5分钟,那么迭代200轮需要1000分钟,16个小时!在看到TensorFlow相关的书籍时,总是提到GPU加速,对于这样的问题,应该能派上用场吧。TensorFlow目前只支持NVIDIA显卡,笔者手头没有,阿里云上有GPU计算型ECS,便“按量付费”买了一台,开始了一场“坎坷小贵”的验证之旅。坎坷的原因是没有找到一篇完整的指南,遇到各种的版本问题,Tensorflow作为咕果的产品官网打不开;小贵是因为服务器12元/小时,后来看到NVIDIA Tesla P100一块卖40000元,好吧,也不是阿里云抢咱的钱。下面一起来如何在阿里云GPU计算型ECS服务器上运行TensorFlow机器学习。
友情提示:本文中使用的版本已经经过验证,直接使用这些版本可以避免很多“坑”
购买阿里云GPU计算型ECS
笔者购买的是ecs.gn5-c4g1.xlarge实例规格,使用Ubuntu 16.04 64位操作系统
安装NVIDIA CUDA Toolkit
NVIDA CUDA Toolkit中含有显卡驱动,不要提前安装显卡驱动,以免冲突。在NVIDA网站上找到