最近遇到问题的总结

最新推荐文章于 2024-08-22 17:18:38 发布

zxGina

最新推荐文章于 2024-08-22 17:18:38 发布

阅读量219

点赞数

分类专栏：其他

本文链接：https://blog.csdn.net/adcxz/article/details/101618013

版权

其他专栏收录该内容

1 篇文章 0 订阅

订阅专栏

1、ubuntu16.04 添加新账户，并给 sudo 权限

（1）添加账户

root用户：

adduser newuser

已获得sudo权限的非root用户：

sudo adduser newuser

无论哪种方式，您都会被问到一系列问题。程序将是：

为新用户分配并确认密码
输入有关新用户的任何其他信息。这完全是可选的，如果您不想使用这些字段，可以通过按Enter键跳过。
最后，系统会要求您确认您提供的信息是否正确。输入Y继续。

您的新用户现在可以使用了！您现在可以使用您设置的密码登录

（2）给sudo权限

默认情况下，新用户仅在其自己的组中（可以使用groups newuser 命令查看新用户所在的组），该组在创建帐户时创建，并与用户共享名称。为了将用户添加到新组，我们可以使用以下usermod命令：

usermod -aG sudo newuser

此处的选项-aG告诉usermod您将用户添加到列出的组中（上面命令中列出的组为sudo）。

2、服务器重启后，机械硬盘未挂载

服务器重启后，进入hdd目录后，ls 啥也没有，发现是3.4T的机械硬盘未挂载

（1）显示硬盘及所属分区情况。在终端窗口中输入如下命令：

sudo fdisk -l

显示当前的硬盘及所属分区的情况。

（2）显示硬盘挂载情况。在终端窗口中输入如下命令：

df -l

发现 /dev/sda4（空间为3.4T的硬盘确实没挂载）

（3）将 /dev/sda4 挂载到 /hdd 上

sudo mount /dev/sda4 /hdd/

3、jupyter notebook的使用

（1）conda创建一个环境

（2）conda安装pytorch（conda安装jupyter才可使用torch模块）

涉及到conda换源问题 .condarc 文件中内容

channels:
  - http://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
  - http://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free
  - http://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/
  - http://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/msys2/
show_channel_urls: true

<1>https 改为了 http

<2> 删除了 --defaults

修改了上述两个conda换源成功了（清华源又恢复使用了）

（3）使用conda安装jupyter notebook

conda install jupyter notebook

（4）进入创建的conda环境，输入：jupyter notebook即可使用（此时可使用安装的torch环境，如果原环境是conda创建的环境，用pip安装的torch、jupyter notebook，此时在该环境中输入jupyter notebook，在创建的文件的import torch会报没有该模块的错）

（5）jupyter notebook的自动补全

<1> 安装nbextensions

conda install jupyter_contrib_nbextensions
jupyter contrib nbextension install --user

<2>安装nbextensions_configurator

pip install jupyter_nbextensions_configurator 
jupyter nbextensions_configurator enable --user

<1> <2> 步骤中如果提示缺少依赖，就使用conda安装对应依赖即可。

<3> 重启jupyter，在弹出的主页面里，能看到增加了一个Nbextensions标签页，在这个页面里，勾选Hinterland即启用了代码自动补全，打开一个notebook感受一下吧。如下即可。

4、cuda多个版本的切换

在安装了多个cuda版本后，可以在/usr/local/目录下查看自己安装的cuda版本，如下图所示：

这里，cuda-9.0和cuda-9.1就是我们安装的两个cuda版本了，而cuda是一个软链接，它指向我们指定的cuda版本（注意上面在设置环境变量时，使用的是cuda，而不是cuda-9.0和cuda-9.1，这主要是为了方便我们切换cuda版本，可以让我们不用每次都去该环境变量的值）

可以使用stat命令查看当前cuda软链接指向的哪个cuda版本，如下所示：

可以看到，文件类型是symbolic link，而指向的目录正是/usr/local/cuda-9.0，当我们想使用cuda-9.1版本时，只需要删除该软链接，然后重新建立指向cuda-9.1版本的软链接即可（注意名称还是cuda，因为要与bashrc文件里设置的保持一致）

sudo rm -rf cuda
sudo ln -s /usr/local/cuda-9.1 /usr/local/cuda

想切换其他版本的cuda，只需要改动建立软链接时cdua的正确路径即可

5、杀死GPU进程

使用如下命令：

kill -9 PID

例如上面是：kill -9 4731

若杀死进程后显存仍然占用，可用命令fuser -v /dev/nvidia* 查找占用GPU资源的PID，然后执行kill -9 PID结束进程，这样就可以释放内存了

6、nvidia-smi 报如下错误：

NVIDIA-SMI has failed because it couldn’t communicate with the NVIDIA driver. Ma
ke sure that the latest NVIDIA driver is installed and running

遇到这个问题解决办法：
cd /usr/src 查看驱动版本号(我的是410.93)
sudo apt-get install dkms
sudo dkms install -m nvidia -v 410.93
无需重启即可成功看到输入nvidia-smi后熟悉的界面（针对自己的驱动版本操作即可）

7、新创建的环境中使用pip报如下错误：

Traceback (most recent call last):
  File "/home/dl/.conda/envs/torch1.1.0/bin/pip", line 7, in <module>
    from pip._internal.main import main
ModuleNotFoundError: No module named 'pip._internal.main'

解决办法：