Linux服务器_坐在云朵上的kiwi的博客-CSDN博客

Linux服务器

关注

linux服务器上进行深度学习的一些技巧和问题解决

关注数：文章数：12 文章阅读量：32355 文章收藏量：64

作者: 坐在云朵上的kiwi

这个作者很懒，什么都没留下…

展开

Pytorch使用DataParallel后仍只使用一个GPU

服务器类型：slurm管理下的超算服务器系统：linuxpython版本：3.8虚拟环境：virtualenvpytorch版本：1.10问题描述：在服务器上用上卡跑模型时，使用后，模型和数据仍然只占用第一个gpu，然后内存爆掉。

原创 2023-05-14 14:03:12 · 1406 阅读 · 0 评论
terminate called after throwing an instance of ‘c10::Error‘ chunk expects at least a 1-d tensor

多卡训练深度学习模型报错 terminate called after throwing an instance of 'c10::Error' what(): chunk expects at least a 1-dimensional tensor

原创 2022-12-19 08:46:49 · 2569 阅读 · 0 评论
Linux上VSCODE无法打开web视图，“Webview Service Worker Error in registration due to invalid document state”

解决linux中vscode无法打开web视图

原创 2022-07-08 02:54:20 · 7892 阅读 · 2 评论
virtualenv虚拟环境import torch遇到cannot import name ‘packaging‘ from ‘pkg_resources‘

python 版本：3.8安装pytorch方式：piptorch版本：1.10.0系统：Linux问题描述：$ python>>> import torch错误详细信息Traceback (most recent call last): File "<stdin>", line 1, in <module> File "/project/6019271/siyi/siyi_projects/ENV/lib/python3.8/site-

原创 2022-05-25 03:15:18 · 5736 阅读 · 2 评论
[Linux服务器]内存和缓存的清理

今天发现跑深度学习程序时，服务器会很卡并直接掉线，要过很久才能重新连接。最开始以为是gpu的问题，但是上周在跑同样batch的数据时没有遇到问题，与朋友讨论后认为是cpu内存爆掉了的原因。以下是完整的修复过程1.查看内存使用free -h 查看内存和缓存watch free -h 实时查看内存和缓存发现不跑程序的时候，占用达到了71g2.清理碎片最开始认为可能是系统之前运行程序留下的缓存文件，所以使用清理缓存的方法。sudo -s # 进入到管理员模式sync # 在清理缓

原创 2021-03-22 10:30:05 · 5513 阅读 · 1 评论
[Linux服务器]跑深度学习框架常用指令和使用指南Mac

跑深度学习框架常用指令和使用指南Mac1. 连接app的选择2. 连接需要的信息3. 操作步骤3.1 进入指定文件夹3.2 设置环境3.3 训练前准备3.4 训练过程3.5 关闭训练程序3.6 查看tensorboad训练图4. 其他常用指令1. 连接app的选择window下：可视化传文件使用winscp，在命令行输入指令使用putty或xshell等Mac下：可视化传文件使用ForkLift，在命令行输入指令使用Mac自带的终端使用方法2. 连接需要的信息服务器的用户名如 ubuntu

原创 2021-03-14 21:18:56 · 937 阅读 · 0 评论
[Linux服务器]使用mac登陆服务器的方式和软件

命令行界面使用putty软件，简单易上手使用mac终端连接可以参考这两个链接1和2是两种不同的方式，但要注意的是，如果端口号不是默认22 则需要写 name@xxxx -p 端口号。图形界面为了方便向服务器上传文件，所以希望能够找到一个图形界面的软件能够查看本地和服务器的文件夹。在window系统下可以使用winscp，而在macos系统，我根据这篇文章在appstore里面找到了folklift软件，界面几乎和winscp一样，十分方便。...

原创 2021-03-01 19:04:26 · 437 阅读 · 0 评论
[Linux服务器错误] RuntimeError: cuDNN error: CUDNN_STATUS_BAD_PARAM

这是因为数据类型不一致造成的。我出现的原因是因为Numpy默认产生的数据是float64, 而之前的数据都是float32。所以改变构造数据的代码如下A = np.ones([1,5], dtype = float32)另一个错误“RuntimeError: expected type torch.cuda.DoubleTensor but got torch.cuda.FloatTensor”是由于没有把tensor变成cuda并且数据类型不一致添加 .cuda() 并由上文一样检查数据类型

原创 2020-10-08 16:58:50 · 2764 阅读 · 0 评论
[Linux服务器错误] nohup: ignoring input and appending output t o ‘nohup.out‘

并不一定是出现了错误。使用nvidia-smi或tail -fn 50 nohup.out检查一下程序是否在运行

原创 2020-10-08 16:53:59 · 2395 阅读 · 1 评论
[Linux服务器错误] TypeError: can‘t convert CUDA tensor to numpy. Use Tensor.cpu() to copy the tensor

这一错误出现的原因是对之前的cuda中的张量又使用numpy进行计算。检查代码使用A.data.cpu().numpy()变换一下即可继续

原创 2020-10-08 16:52:18 · 305 阅读 · 0 评论
[Linux服务器错误] RunTimeError: Cannot join current thread

关于线程的错误。我的训练指令是nohup python train.py --config-yml configs/lf_disc_faster_rcnn_x101.yml --load-pthpath checkold/checkpoint_31.pth --validate --gpu-id 0 1 --cpu-workers 8 &把cup-worker改成4个就可以了，原因应该是训练和测试同时的时候，都是8个服务器没那么多...

原创 2020-08-08 19:33:42 · 763 阅读 · 1 评论
[Linux服务器错误] 使用xshell connection failed

使用其他的终端平台就可以，唯独xshell不行。不要犹豫，果断放弃，改使用putty，问题解决

原创 2020-08-08 16:04:05 · 1645 阅读 · 2 评论

Linux服务器

作者: 坐在云朵上的kiwi

Pytorch使用DataParallel后仍只使用一个GPU

terminate called after throwing an instance of ‘c10::Error‘ chunk expects at least a 1-d tensor

Linux上VSCODE无法打开web视图，“Webview Service Worker Error in registration due to invalid document state”

virtualenv虚拟环境import torch遇到cannot import name ‘packaging‘ from ‘pkg_resources‘

[Linux服务器]内存和缓存的清理

[Linux服务器]跑深度学习框架常用指令和使用指南Mac

[Linux服务器]使用mac登陆服务器的方式和软件

[Linux服务器 错误] RuntimeError: cuDNN error: CUDNN_STATUS_BAD_PARAM

[Linux服务器 错误] nohup: ignoring input and appending output t o ‘nohup.out‘

[Linux服务器 错误] TypeError: can‘t convert CUDA tensor to numpy. Use Tensor.cpu() to copy the tensor

[Linux服务器 错误] RunTimeError: Cannot join current thread

[Linux服务器 错误] 使用xshell connection failed

[Linux服务器错误] RuntimeError: cuDNN error: CUDNN_STATUS_BAD_PARAM

[Linux服务器错误] nohup: ignoring input and appending output t o ‘nohup.out‘

[Linux服务器错误] TypeError: can‘t convert CUDA tensor to numpy. Use Tensor.cpu() to copy the tensor

[Linux服务器错误] RunTimeError: Cannot join current thread

[Linux服务器错误] 使用xshell connection failed