实验室服务器日常运行基本操作介绍

本篇主要介绍实验室服务器的管理员基本操作。



用户管理:

主要内容为作为服务器管理员,为实验室同门创建服务器账号。

用户添加:

命令:sudo useradd -m -s /bin/bash xxx (xxx)为用户名称,建议使用姓名全拼,方便辨识。

命令中 -m 为创建用户主目录,-s /bin/bash 为指定用户的登录shell为 bash,也可以是其他的,但一般还是用 bash

其他的命令参数可以用 useradd --help(任何命令都可以用 --help 查阅参数传递),不过其他的一般用不到。

用户密码设置

命令:sudo passwd xxx,可以统一设置一个密码,方便用户登录,后续用户可以自己用此命令更改自己的密码(无需 sudo 权限)。

用户主目录更改

命令:sudo usermod -m -d path_to_directory xxx,用户添加命令默认创建在 /home/xxx 下,而 /home 一般是由系统固态盘在挂载(挂载的事后面说),为了管理方便,应统一将所添加用户的主目录放在大容量机械硬盘所挂载的目录下。

以一个机械硬盘挂载在目录 /data 下为例,path_to_directory 应为 /data/xxx,这样就可以将用户 xxx 的主目录从 /home/xxx 移动到 /data/xxx 下。

以上三步为常规用户管理方式,可作为用户添加默认流程。

用户删除

此命令慎用(作为管理员,任何 sudo 权限下的删除操作都应慎之又慎)。
命令:sudo userdel -r xxx,应用场景基本限于添加时添加错误,或者用户由于毕业、换服务器等原因已不再使用当前服务器账号(此种情况务必与用户核实清楚以防误删,必要时可以用外接硬盘备份数据)。



新服务器配置

当购置新服务器时,硬件问题主要联系供应商解决,当硬件配置完毕时,需要进行一些环境配置以便后续使用。

硬盘挂载

加入硬盘后,使用命令 sudo fdisk -l 查看硬盘信息,找到需要挂载的(机械)硬盘名称,一般情况下 /dev/sda 是安装系统的固态硬盘,新加的机械硬盘为后续的 /dev/sdb//dev/sdc

例:可能看到如下信息:

Disk /dev/sdb: 9.1 TiB, 10000831348736 bytes, 19532873728 sectors
Disk model: ST10000NM001G-2M
Units: sectors of 1 * 512 = 512 bytes
Sector size (logical/physical): 512 bytes / 4096 bytes
I/O size (minimum/optimal): 4096 bytes / 4096 bytes

之后,使用命令 sudo blkid /dev/sdb 查看硬盘 /dev/sdb 的硬盘标识符(唯一,用此标识挂载硬盘不容易搞混)。

例:可能看到如下信息:

/dev/sdb: LABEL="data" UUID="5axxxxx-399c-4c7a-857f-xxxxxxxxxx" TYPE="ext4"

记下此 UUID,并使用命令 sudo vim /etc/fstab 挂载。

例:可能看到如下信息:

# /etc/fstab: static file system information.
#
# Use 'blkid' to print the universally unique identifier for a
# device; this may be used with UUID= as a more robust way to name devices
# that works even if disks are added and removed. See fstab(5).
#
# <file system> <mount point>   <type>  <options>       <dump>  <pass>
# / was on /dev/sda4 during installation
UUID=a20xxxxx-c02d-4815-bbba-xxxxxxxxxxx /               ext4    errors=remount-ro 0       1
# /boot was on /dev/sda3 during installation
UUID=ca7xxxxx-9538-4527-8289-xxxxxxxxxxx /boot           ext4    defaults        0       2

照猫画虎,在后面加上想要挂载的硬盘的信息,如:
UUID=5axxxxx-399c-4c7a-857f-xxxxxxxxxx /data ext4 defaults 0 0,保存,退出,重启服务器即可(vim的使用方法可自行查阅,不再赘述,嫌麻烦可以用gedit,不过需要GUI操作,另挂载要检查好,出错了会无法重启,需要额外启动盘再次修改此配置文件)。

安装CUDA以及cuDNN

经过经验尝试,发现全局安装一个CUDA + 用户根据自己需求安装其他版本CUDA的方式是比较合理的。

具体安装教程网上已经很多了也很详细,这里直接贴推荐链接,以及注意事项。

注:很多时候安装CUDA成为一种习惯,实际上大多数python深度学习程序如果没有C++/CUDA扩展的情况下,直接使用conda/pip安装pytorch时安装cudatoolkit即可支持程序运行,无需安装NVIDIA官网CUDA。

全局安装CUDA及cuDNN

一般服务器验收时已经安装了NVIDIA驱动,使用 nvidia-smi 即可查看驱动版本、最大支持CUDA版本以及显卡信息。因此在安装CUDA时,务必注意取消勾选安装驱动(教程里有提到)。

安装教程

用户自行安装CUDA及cuDNN

理想的情况下是只需用新版本CUDA即可,但有时有些用户的代码可能需要低版本的CUDA编译运行C++/CUDA扩展,这种情况下需要用户自行安装CUDA及cuDNN(无需sudo权限)。

非root用户安装教程

在同时有全局及自行安装的CUDA包的情况下,主要通过用户目录下的 .bashrc 文件控制所用CUDA版本,即对CUDA对应环境变量的修改(两个教程中都有提到,按自己需求更改即可)。

注意环境变量配置!!!

CUDA环境变量配置,别被网上很多教程坑了。



服务器各种疑难杂症究极解决方式


重装系统大法:但是有技巧。

如果直接重装,所有用户路径全乱了,环境配置全宕机,需要重新配置。

重装之前,先运行 sudo cat /etc/passwd,在最下面几行看到:

liuxxx:x:1001:1001::/home/liuxxx:/bin/bash
wangxxx:x:1002:1002::/mnt/wangxxx:/bin/bash
lixxx:x:1003:1003::/mnt/lixxx:/bin/bash
wangxxx:x:1004:1004::/mnt/wangxxx:/bin/bash

用户名称:用户id:用户主目录路径:用户shell

把这些信息记住。

然后,重点!!!!!

**在重装目录之后,按照用户id的顺序创建账户,并将用户主目录修改至之前的用户主目录路径。**之后管理员只需重装CUDA等全局有效的依赖,即可使用如常。

前提:所有用户数据均保存于非系统盘的机械硬盘,当然这个条件一般满足;另外是在重装系统的时候千万千万不要把非系统盘的数据给格式化!!!




(本文随时更新)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值