AI hpc科研环境远程服务器配置

brucecui1998

于 2023-08-11 11:29:24 发布

阅读量114

点赞数

分类专栏：科研环境搭建文章标签：人工智能服务器运维

本文链接：https://blog.csdn.net/brucecui1998/article/details/132227519

版权

科研环境搭建专栏收录该内容

3 篇文章 0 订阅

订阅专栏

今天准备现在笔记本折腾一下debian，之前一直用ubuntu觉得不稳定，特此记录一下坑，开学再给实验室装服务器

安装debian

服务器镜像：debian-12.1-standard

烧录软件：refus-3.1.3

官方安装文档：Debian GNU/Linux 安装手册

准备工作：

1、在win上压缩出100GB的空间，右键此电脑-磁盘管理-压缩卷
2、使用refus制作启动盘

重启选择UEFI启动项进入debian安装界面，照着文档做很简单

firmware

其中再detect firmware的时候，官方的 CD 映像不含商用的固件，缺少一些firmware，参考6.4. 加载缺失的固件，去下载对应版本的然后解压到u盘的/firmware下

手动分区

参考6.3. 使用单独的组件，选择Manual后，选中自己提前分出来的磁盘空间，上面写着FREE SPACE

踩的坑：

1、当debian问要不要安装grub时，不要什么都不填直接点contiune，它允许你这么做，但你这么做之后你重启后找不到引导，这可太自由了...

配置grub Install the GRUB boot loader

在配置grub时，根据之前划分出来的100GB位于哪个硬盘，sda还是nvme（在分区那一步可以看到），就选哪一个。例如，我的100GB空闲是位于sda，我就应该选第三个/dev/sda/。到底位于哪里，在手动分区那里可以看到

2、如上操作后，由于我的sda磁盘没有EFI分区，安装完重启后还是没有办法引导。大佬说我的盘是MBR分区表，MBR分区表对应的是只能走grub的legacy模式引导（GPT分区表对应EFI引导），刚才找不到引导项是因为，legacy安装下它根本不走efi，而是通过直接选设备引导的，但是不知道我是否开启了lagacy引导支持。

在大佬指导下，我选择了倒数第二个，从设备引导，引导成功，比较幸运，看来我开启了lagacy支持。

tips大佬的话：这里面机制有点复杂,EFI的引导检测机制是使用特殊的EFI分区中的efi程序,efi固件在进入时会扫描每个磁盘上的efi分区,把nvram里面保存的efi引导程序放在这里,你选一个就会根据记录找到对应的文件引导,但是老旧的legacy引导不是这样,让我们回到二十年前,那时候还没有efi固件,也不存在efi分区,引导方式就是简单的扫描零号扇区,因此只能通过选择设备区分不同的引导项,我说的很简单，其实细节远不止这样,你感兴趣可以看看GRUB的两阶段引导的具体实现,那个000H1就是保存在NVRAM里面的Windows引导项,它对应的efi程序是/EFI/Windows/bootmgr.efi.顺带再一提,虽然我们经验上说MBR对应Legacy引导，GPT对应UEFI引导,但是实际上它们直接不是绝对的对应关系,而是一个两两组合的二维矩阵,换句话说，MBR+EFI，GPT+Legacy也是可以的,虽然不被推荐,是Windows强行绑定起来,把人都惯成了思维定式

安装基本的东西

sudo apt install vim g++ openssh-server git net-tools

配置ssh

su root 的话只是将当前身份转为 root，用户 shell 并没有改变，所以有些系统命令不能使用，所以使用su - root

su - root

配置ssh，利用vscode连接

sudo ufw allow ssh

sudo vim /etc/ssh/sshd_config

编辑ssh的配置文件。将#PermitRootLogin prohibit-password中prohibit-password去掉改为yes，并把PermitRootLogin yes之前的#去掉：

PermitRootLogin yes

设置SSH开机启动使用以下命令设置SSH开机启动：

update-rc.d ssh enable

重启ssh服务

service sshd restart

在debian中查看ip地址

ifconfig

在vscode中安装ssh插件，然后即可实现局域网内ssh hunter@ip

利用cpolar实现公网访问远程服务器

很简单，等到学校装的时候再补充

配置CUDA

CUDA各种版本

安装驱动

wget https://www.nvidia.cn/content/DriverDownloads/confirmation.php?url=/XFree86/Linux-x86_64/535.86.05/NVIDIA-Linux-x86_64-535.86.05.run
sudo sh NVIDIA-Linux-x86_64-535.86.05.run

安装cudatoolkit

wget https://developer.download.nvidia.com/compute/cuda/12.1.0/local_installers/cuda_12.1.0_530.30.02_linux.run
sudo sh cuda_12.1.0_530.30.02_linux.run

输入accept后只选择cudatoolkit就可以

添加环境变量，vim /etc/profile，为所有用户添加CUDA环境变量

export PATH=/usr/local/cuda-12.1/bin:$PATH

export LD_LIBRARY_PATH=/usr/local/cuda-12.1/lib64:$PATH

source /etc/profile

添加多用户便于实验室组内共用

注意服务器的root权限最好只有一个人掌握，其他人直接分配用户

sudo adduser cuirongpei

会提示输入密码什么的

brucecui1998

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
AI hpc科研环境远程服务器配置

今天准备现在笔记本折腾一下debian，之前一直用ubuntu觉得不稳定，特此记录一下坑，开学再给实验室装服务器。
复制链接

扫一扫

专栏目录