实验室集群新购置了深度学习计算系统,配套安装服务靠不住,工程师甩锅于学校的网络环境问题。没办法,只能自己慢慢摸索学习搭建和管理维护,在各种坑中爬出。
目前集群采用计算节点和存储节点结合的方式(管理节点尚未使用),计算节点采用Ubuntu14.04系统,安装CUDA8.0和DIGITS深度学习系统。下面我从系统的安装开始叙述我的搭建过程。
Ubuntu和CUDA安装包的下载。
百度网盘资源下载:
14.04.5 64位下载地址:http://pan.baidu.com/s/1kV3P2QV 提取密码 86rw
cuda 8.0安装包下载地址:http://pan.baidu.com/s/1jHG25oy 提取密码 ucjf
digits5安装包下载地址:http://pan.baidu.com/s/1i4Jmwlv 提取密码 5oo9制作Ubuntu系统U盘启动:
本人用的是UItraISO软件在自己的电脑上制作U盘启动。插入一个U盘(需要格式化),打开软件,先找到下载的Ubuntu镜像文件地址。在工具栏上方——启动——写入硬盘映像——选择插入的U盘,格式化——写入。装Ubuntu系统
等待系统写入完成然后拔掉U盘插到需要安装系统的电脑上。安装前:进入ESC8000G3(集群计算节点 gpunum1)