服务器运维介绍
更新日期:2022/12/4
管理员:王章钰
新服务器部署
- 若采购新服务器,需要对home做单独分区,安装磁盘限额(可限制5G)。避免no sapce出现
服务器基本信息
密码更新日期:2022/12/4
服务器 | IP | root密码 | 用途 | 属性 |
---|---|---|---|---|
dell | ******* | ******* | GPU | 4块A100(40G左右显存) |
amax | ******* | ******* | GPU | 8块 GeForce GTX 1080(11G左右显存) |
node100 | ******* | ******* | CPU | 8个计算节点 |
tomo 03 | ******* | ******* | CPU | 服务器 |
dell服务器开机挂载
data2挂载在amax上,dell服务器通过访问amax来共享data2的数据。所以dell服务器正常使用的前提是amax正常。dell服务器每次开机需要重新挂载data2,挂载命令
A100挂载data3(node100服务器的存储)和data2
mount -t nfs ***.***.***.***:/public/home /data3
mount -t nfs ***.***.***.***:/data2 /data2/
***分别是node100的IP,amax的IP
Amax挂载A100上的文件
mount -t nfs ***.***.***.***:/mnt/SCQR_data1 /mnt/SCQR_data1
***为dell的IP
或者修改/etc/fstab
(base) wangzy@dell:~$ cat /etc/fstab
# /etc/fstab: static file system information.
#
# Use 'blkid' to print the universally unique identifier for a
# device; this may be used with UUID= as a more robust way to name devices
# that works even if disks are added and removed. See fstab(5).
#
# <file system> <mount point> <type> <options> <dump> <pass>
# / was on /dev/sda3 during installation
UUID=6df9bb4a-766b-4ab1-92da-bad6179f800a / ext4 errors=remount-ro 0 1
# /boot/efi was on /dev/sda1 during installation
UUID=184B-1142 /boot/efi vfat umask=0077 0 1
# swap was on /dev/sda2 during installation
UUID=2e147d59-66aa-491e-a878-1e77aed61cce none swap sw 0 0
192.168.0.3:/data2 /data2 nfs defaults 1 1
如果共享磁盘没有挂载,执行/etc/rc.local
link
关机与重启
关机 poweroff, shutdown -h +1
重启 reboot, shutdown -r +1
对于集群服务器,可能需要同步 clusconf --sync-do /etc/rc.local
修改root密码
- passwd root(直接登录root修改)
- sudo passwd(利用sudo账户修改)
- 忘记密码(重启服务器,单用户模式修改):
- https://cloud.tencent.com/developer/article/1843568
- http://m.blog.chinaunix.net/ui-21209618-id-4738916.html
node100 集群服务器开关机:
开机顺序:
1.IB交换机(一般不用管)
2.网络交换机(一般不用管)
3.存储服务器
4.管理节点
5.计算节点
关机顺序:(倒着来)
1.计算节点
2.管理节点
3.存储服务器
4.网络交换机(一般不用管)
5.IB交换机(一般不用管)
服务器安全
安装fail2ban sudo apt install fail2ban
设置fail2ban配置策略sudo vi /etc/fail2ban/jail.local
检查 Jails状况:sudo fail2ban-client status sshd
封禁IP:sudo fail2ban-client set sshd banip 23.34.45.56
解禁的IP:sudo fail2ban-client set sshd unbanip 23.34.45.56
tomoplus图像显示问题
ssh 连接是加X或Y
ssh -Y node1
ssh -X node1
运行xterm查看是否有图形界面弹出,如果没有,说明本次连接的shell不能显示图像
[wangzy@node100 ~]$ xterm &
解决方法:一般重启终端(如:重启Mobaxterm)
tomoplus license问题
tomoplus激活不需要root,任何普通账户都已运行下边的激活操作
选择当年的Tomoplus版本*2022.lic
[wangzy@node100 ~]$ cd ~
[wangzy@node100 ~]$ cat .flexlmrc
GEOTOMO_LICENSE_FILE=/public/software/Geotomo_all_versions/GeoTomo64_v63_Auto/GeoTomo64jre18/TomoPlus/Tomo3D/../../license:/public/software/Geotomo_all_versions/GeoTomo64_v63_Auto/GeoTomo64/license
[wangzy@node100 ~]$ cd /public/software/Geotomo_all_versions/GeoTomo64_v63_Auto/GeoTomo64jre18/TomoPlus/Tomo3D/../../license
[wangzy@node100 license]$ ls
geotomo license.v11.10 lmdown lmreread lmutil tomoplus_6pt3_vecon_4pt5_velmap_geothrust_4pt1_linux_USTC_node100_e8611f3264f8_31dec2021.lic
license.old lmdiag lmgrd lmstat README.txt tomoplus_6pt4_vecon_4pt5_velmap_geothrust_4pt1_linux_USTC_node100_e8611f3264f8_31dec2022.lic
[wangzy@node100 license]$ ./lmgrd -c tomoplus_6pt4_vecon_4pt5_velmap_geothrust_4pt1_linux_USTC_node100_e8611f3264f8_31dec2022.lic
- 如果仍有问题,先关闭tomoplus守护进程,重新激活
[wangzy@node100 license]$ ./lmdown -c tomoplus_6pt4_vecon_4pt5_velmap_geothrust_4pt1_linux_USTC_node100_e8611f3264f8_31dec2022.lic
[wangzy@node100 license]$ ./lmgrd -c tomoplus_6pt4_vecon_4pt5_velmap_geothrust_4pt1_linux_USTC_node100_e8611f3264f8_31dec2022.lic
- 如果重启不成功,遇到 Permission denied的情况,直接删掉文件/var/tmp/lockgeotomo
创建账户
- 单节点服务器:dell, amax, tomo 03
- adduser XXX(创建用户)
- userdel XXX
- 集群服务器: node100
- clusconf -au XXX(创建用户)
- clusconf -du XXX (删除用户)
更改文件夹所有者、更改组
更改文件夹所有者 chown wangzy –R wangzy/
更改文件夹所有组 chgrp users –R wangzy
ssh问题
查看一下home目录下有没有 .ssh 文件夹, 用 ls -al查看 (注:linux系统中以“.”开头的是隐藏文件)
如果没有,就自己建立一个 : mkdir .ssh
cd然后进入 .ssh,依次运行:
1 ssh-keygen (命令后一直敲空格就行, 会生成几个文件)
2 cat id_dsa.pub >> authorized_keys
3 退出.ssh 至你的home, 运行 chmod -R 755 .ssh
4 进入.ssh, chmod 600 *
service sshd restart
GPU: 服务器显存占用但是找不到pid
fuser -v /dev/nvidia*
fuser -k /dev/nvidia*
Sudo 账户下操作
GPU nvidia-smi
(base) wangzy@dell:~$ nvidia-smi
Tue Dec 6 15:40:01 2022
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 515.86.01 Driver Version: 515.86.01 CUDA Version: 11.7 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|===============================+======================+======================|
| 0 NVIDIA A100-PCI... Off | 00000000:17:00.0 Off | 0 |
| N/A 34C P0 34W / 250W | 4MiB / 40960MiB | 0% Default |
| | | Disabled |
+-------------------------------+----------------------+----------------------+
| 1 NVIDIA A100-PCI... Off | 00000000:65:00.0 Off | 0 |
| N/A 34C P0 33W / 250W | 4MiB / 40960MiB | 0% Default |
| | | Disabled |
+-------------------------------+----------------------+----------------------+
| 2 NVIDIA A100-PCI... Off | 00000000:CA:00.0 Off | 0 |
| N/A 35C P0 38W / 250W | 4MiB / 40960MiB | 0% Default |
| | | Disabled |
+-------------------------------+----------------------+----------------------+
| 3 NVIDIA A100-PCI... Off | 00000000:E3:00.0 Off | 0 |
| N/A 34C P0 35W / 250W | 4MiB / 40960MiB | 0% Default |
| | | Disabled |
+-------------------------------+----------------------+----------------------+
+-----------------------------------------------------------------------------+
| Processes: |
| GPU GI CI PID Type Process name GPU Memory |
| ID ID Usage |
|=============================================================================|
| 0 N/A N/A 3413 G /usr/lib/xorg/Xorg 4MiB |
| 1 N/A N/A 3413 G /usr/lib/xorg/Xorg 4MiB |
| 2 N/A N/A 3413 G /usr/lib/xorg/Xorg 4MiB |
| 3 N/A N/A 3413 G /usr/lib/xorg/Xorg 4MiB |
+-----------------------------------------------------------------------------+
(base) wangzy@dell:~$ nvcc -V
nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2022 NVIDIA Corporation
Built on Wed_Jun__8_16:49:14_PDT_2022
Cuda compilation tools, release 11.7, V11.7.99
Build cuda_11.7.r11.7/compiler.31442593_0
tmp 空间不足
- 原因:可能读取大量文件(IO需求很大),每打开一个文件,/tmp都会有对文件的缓存
- 解决方案:
Ubuntu: 用户无法自动加载 .bashrc的问题
解决办法:在~/.bash_profile里添加上:
if [ -f ~/.bashrc ] ; then
source ~/.bashrc
fi
服务器换ip
科大的DNS:
202.38.64.1
202.38.64.7
用笔记本电脑连接网线测试 网口是否有问题,连接网络通,获取ip
学习链接
常用命令链接: https://www.runoob.com/linux/linux-command-manual.html
科大BBS Linux系统: http://bbs.ustc.edu.cn/cgi/bbsdoc?board=Linux
清华水木社区Linux系统与应用: http://www.newsmth.net/bbsdoc.php?board=LinuxApp
清华水木社区Linux开发与高级讨论: http://www.newsmth.net/bbsdoc.php?board=LinuxDev
ChinaUnix:http://www.chinaunix.net/ CSDN:https://bbs.csdn.net/forums/Linux
鸟哥的Linux私房菜:http://www.runoob.com/linux/linux-command-manual.html Linux
常用软件推荐集合汇总: http://www.it610.com/article/1929114.htm
Linux指令大全: http://www.runoob.com/linux/linux-command-manual.html
李会民 (中国科大超算中心) Linux操作系统使用基础: http://hmli.ustc.edu.cn/