一、连接服务器
1、Windows打开cmd
2、去存放key文件的目录下
3、连接服务器
ssh 21181214480@10.250.0.240 -i 21181214480.key
二、配置环境
4、进入anaconda环境
source /apps/software/anaconda3/etc/profile.d/conda.sh
conda env list
5、激活环境,进入python,测试是否安装pytorch(没安装)
6、创建新环境,安装DeeoLog实验的pytorch环境(因为想使用低版本的torch,该环境的python版本3.9太高,无法安装,最后安装失败)
7、重新创建环境,pythonLog,python版本为3.6
conda activate pythonLog
8、配置pytorch环境(成功)
官网查找适用安装代码
pytorch下载网址
选择合适的版本下载
pip3 install torch==1.10.2+cu113 torchvision==0.11.3+cu113 torchaudio==0.10.2+cu113 -f https://download.pytorch.org/whl/cu113/torch_stable.html
9、(遗留问题)无法使用命令查看cpu使用情况
nvidia-smi
三、DeepLog实验
1、运行LogKeyModel_train.py,安装tensorboard
cd DeepLog-master
python LogKeyModel_train.py
pip install tensorboard
2、继续运行LogKeyModel_train.py,修改迭代次数(减少次数,300换成10)
3、修改次数后,跑通LogKeyModel_train.py(成功)
4、继续运行LogKeyModel_predict.py(失败,因为train修改,所以predict也需修改部分)
python LogKeyModel_predict.py
5、成功运行LogKeyModel_predict.py
6、运行python dataView.py
python dataView.py
7、运行python visual.py,安装matplotlib
python visual.py
pip install matplotlib
8、实验成功,下一步使用服务器运行参数300的实验