Linux服务器管理

更新日期:2022/12/4
管理员:王章钰


2016 2017 2018 2019 2020 2021 2022 tomo 01 tomo 02 tomo 03 amax node100 dell 现有服务器 服务器购买

新服务器部署

  • 若采购新服务器,需要对home做单独分区,安装磁盘限额(可限制5G)。避免no sapce出现

服务器基本信息

密码更新日期:2022/12/4

服务器IProot密码用途属性
dell**************GPU4块A100(40G左右显存)
amax**************GPU8块 GeForce GTX 1080(11G左右显存)
node100**************CPU8个计算节点
tomo 03**************CPU服务器

dell服务器开机挂载

data2挂载在amax上,dell服务器通过访问amax来共享data2的数据。所以dell服务器正常使用的前提是amax正常。dell服务器每次开机需要重新挂载data2,挂载命令
A100挂载data3(node100服务器的存储)和data2

mount -t nfs ***.***.***.***:/public/home  /data3
mount -t nfs ***.***.***.***:/data2 /data2/

***分别是node100的IP,amax的IP
Amax挂载A100上的文件

mount -t nfs ***.***.***.***:/mnt/SCQR_data1  /mnt/SCQR_data1

***为dell的IP
或者修改/etc/fstab

(base) wangzy@dell:~$ cat /etc/fstab
# /etc/fstab: static file system information.
#
# Use 'blkid' to print the universally unique identifier for a
# device; this may be used with UUID= as a more robust way to name devices
# that works even if disks are added and removed. See fstab(5).
#
# <file system> <mount point>   <type>  <options>       <dump>  <pass>
# / was on /dev/sda3 during installation
UUID=6df9bb4a-766b-4ab1-92da-bad6179f800a /               ext4    errors=remount-ro 0       1
# /boot/efi was on /dev/sda1 during installation
UUID=184B-1142  /boot/efi       vfat    umask=0077      0       1
# swap was on /dev/sda2 during installation
UUID=2e147d59-66aa-491e-a878-1e77aed61cce none            swap    sw              0       0
192.168.0.3:/data2   /data2                                nfs     defaults      1  1

如果共享磁盘没有挂载,执行/etc/rc.local
link

关机与重启

关机 poweroff, shutdown -h +1
重启 reboot, shutdown -r +1
对于集群服务器,可能需要同步 clusconf --sync-do /etc/rc.local

修改root密码

  1. passwd root(直接登录root修改)
  2. sudo passwd(利用sudo账户修改)
  3. 忘记密码(重启服务器,单用户模式修改):
    • https://cloud.tencent.com/developer/article/1843568
    • http://m.blog.chinaunix.net/ui-21209618-id-4738916.html

node100 集群服务器开关机:

开机顺序:

1.IB交换机(一般不用管)
2.网络交换机(一般不用管)
3.存储服务器
4.管理节点
5.计算节点

关机顺序:(倒着来)

1.计算节点
2.管理节点
3.存储服务器
4.网络交换机(一般不用管)
5.IB交换机(一般不用管)

服务器安全

安装fail2ban sudo apt install fail2ban
设置fail2ban配置策略sudo vi /etc/fail2ban/jail.local
检查 Jails状况:sudo fail2ban-client status sshd
封禁IP:sudo fail2ban-client set sshd banip 23.34.45.56
解禁的IP:sudo fail2ban-client set sshd unbanip 23.34.45.56

tomoplus图像显示问题

ssh 连接是加X或Y
ssh -Y node1
ssh -X node1
运行xterm查看是否有图形界面弹出,如果没有,说明本次连接的shell不能显示图像

[wangzy@node100 ~]$ xterm &

解决方法:一般重启终端(如:重启Mobaxterm)

tomoplus license问题

tomoplus激活不需要root,任何普通账户都已运行下边的激活操作
选择当年的Tomoplus版本*2022.lic

[wangzy@node100 ~]$ cd ~
[wangzy@node100 ~]$ cat .flexlmrc
GEOTOMO_LICENSE_FILE=/public/software/Geotomo_all_versions/GeoTomo64_v63_Auto/GeoTomo64jre18/TomoPlus/Tomo3D/../../license:/public/software/Geotomo_all_versions/GeoTomo64_v63_Auto/GeoTomo64/license
[wangzy@node100 ~]$ cd /public/software/Geotomo_all_versions/GeoTomo64_v63_Auto/GeoTomo64jre18/TomoPlus/Tomo3D/../../license
[wangzy@node100 license]$ ls
geotomo      license.v11.10  lmdown  lmreread  lmutil      tomoplus_6pt3_vecon_4pt5_velmap_geothrust_4pt1_linux_USTC_node100_e8611f3264f8_31dec2021.lic
license.old  lmdiag          lmgrd   lmstat    README.txt  tomoplus_6pt4_vecon_4pt5_velmap_geothrust_4pt1_linux_USTC_node100_e8611f3264f8_31dec2022.lic
[wangzy@node100 license]$ ./lmgrd -c tomoplus_6pt4_vecon_4pt5_velmap_geothrust_4pt1_linux_USTC_node100_e8611f3264f8_31dec2022.lic

  1. 如果仍有问题,先关闭tomoplus守护进程,重新激活
[wangzy@node100 license]$ ./lmdown -c tomoplus_6pt4_vecon_4pt5_velmap_geothrust_4pt1_linux_USTC_node100_e8611f3264f8_31dec2022.lic
[wangzy@node100 license]$ ./lmgrd -c tomoplus_6pt4_vecon_4pt5_velmap_geothrust_4pt1_linux_USTC_node100_e8611f3264f8_31dec2022.lic
  1. 如果重启不成功,遇到 Permission denied的情况,直接删掉文件/var/tmp/lockgeotomo

创建账户

  • 单节点服务器:dell, amax, tomo 03
    • adduser XXX(创建用户)
    • userdel XXX
  • 集群服务器: node100
    • clusconf -au XXX(创建用户)
    • clusconf -du XXX (删除用户)

更改文件夹所有者、更改组

更改文件夹所有者 chown wangzy –R wangzy/
更改文件夹所有组 chgrp users –R wangzy

ssh问题

查看一下home目录下有没有 .ssh 文件夹, 用 ls -al查看 (注:linux系统中以“.”开头的是隐藏文件)
如果没有,就自己建立一个 : mkdir .ssh
cd然后进入 .ssh,依次运行:
1 ssh-keygen (命令后一直敲空格就行, 会生成几个文件)
2 cat id_dsa.pub >> authorized_keys
3 退出.ssh 至你的home, 运行 chmod -R 755 .ssh
4 进入.ssh, chmod 600 *

service sshd restart

GPU: 服务器显存占用但是找不到pid

fuser -v /dev/nvidia*
fuser -k /dev/nvidia*

Sudo 账户下操作

GPU nvidia-smi

(base) wangzy@dell:~$ nvidia-smi
Tue Dec  6 15:40:01 2022
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 515.86.01    Driver Version: 515.86.01    CUDA Version: 11.7     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  NVIDIA A100-PCI...  Off  | 00000000:17:00.0 Off |                    0 |
| N/A   34C    P0    34W / 250W |      4MiB / 40960MiB |      0%      Default |
|                               |                      |             Disabled |
+-------------------------------+----------------------+----------------------+
|   1  NVIDIA A100-PCI...  Off  | 00000000:65:00.0 Off |                    0 |
| N/A   34C    P0    33W / 250W |      4MiB / 40960MiB |      0%      Default |
|                               |                      |             Disabled |
+-------------------------------+----------------------+----------------------+
|   2  NVIDIA A100-PCI...  Off  | 00000000:CA:00.0 Off |                    0 |
| N/A   35C    P0    38W / 250W |      4MiB / 40960MiB |      0%      Default |
|                               |                      |             Disabled |
+-------------------------------+----------------------+----------------------+
|   3  NVIDIA A100-PCI...  Off  | 00000000:E3:00.0 Off |                    0 |
| N/A   34C    P0    35W / 250W |      4MiB / 40960MiB |      0%      Default |
|                               |                      |             Disabled |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processes:                                                                  |
|  GPU   GI   CI        PID   Type   Process name                  GPU Memory |
|        ID   ID                                                   Usage      |
|=============================================================================|
|    0   N/A  N/A      3413      G   /usr/lib/xorg/Xorg                  4MiB |
|    1   N/A  N/A      3413      G   /usr/lib/xorg/Xorg                  4MiB |
|    2   N/A  N/A      3413      G   /usr/lib/xorg/Xorg                  4MiB |
|    3   N/A  N/A      3413      G   /usr/lib/xorg/Xorg                  4MiB |
+-----------------------------------------------------------------------------+
(base) wangzy@dell:~$ nvcc -V
nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2022 NVIDIA Corporation
Built on Wed_Jun__8_16:49:14_PDT_2022
Cuda compilation tools, release 11.7, V11.7.99
Build cuda_11.7.r11.7/compiler.31442593_0

tmp 空间不足

  • 原因:可能读取大量文件(IO需求很大),每打开一个文件,/tmp都会有对文件的缓存
  • 解决方案:
    • 减少大量文件读取
    • 删除/tmp下的部分内容(容易误删)
    • 增大/tmp空间,拓展/tmp Link1 Link2

Ubuntu: 用户无法自动加载 .bashrc的问题

解决办法:在~/.bash_profile里添加上:
if [ -f ~/.bashrc ] ; then
source ~/.bashrc
fi

服务器换ip

科大的DNS:
202.38.64.1
202.38.64.7
用笔记本电脑连接网线测试 网口是否有问题,连接网络通,获取ip

学习链接

常用命令链接: https://www.runoob.com/linux/linux-command-manual.html
科大BBS Linux系统: http://bbs.ustc.edu.cn/cgi/bbsdoc?board=Linux
清华水木社区Linux系统与应用: http://www.newsmth.net/bbsdoc.php?board=LinuxApp
清华水木社区Linux开发与高级讨论: http://www.newsmth.net/bbsdoc.php?board=LinuxDev
ChinaUnix:http://www.chinaunix.net/ CSDN:https://bbs.csdn.net/forums/Linux
鸟哥的Linux私房菜:http://www.runoob.com/linux/linux-command-manual.html Linux
常用软件推荐集合汇总: http://www.it610.com/article/1929114.htm
Linux指令大全: http://www.runoob.com/linux/linux-command-manual.html
李会民 (中国科大超算中心) Linux操作系统使用基础: http://hmli.ustc.edu.cn/

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值