![](https://img-blog.csdnimg.cn/20210330213334410.jpeg?x-oss-process=image/resize,m_fixed,h_224,w_224)
Linux服务器
文章平均质量分 50
linux服务器上进行深度学习的一些技巧和问题解决
坐在云朵上的kiwi
这个作者很懒,什么都没留下…
展开
-
Pytorch使用DataParallel后仍只使用一个GPU
服务器类型:slurm管理下的超算服务器系统:linuxpython版本:3.8虚拟环境:virtualenvpytorch版本:1.10问题描述:在服务器上用上卡跑模型时,使用后,模型和数据仍然只占用第一个gpu,然后内存爆掉。原创 2023-05-14 14:03:12 · 1306 阅读 · 0 评论 -
terminate called after throwing an instance of ‘c10::Error‘ chunk expects at least a 1-d tensor
多卡训练深度学习模型报错 terminate called after throwing an instance of 'c10::Error' what(): chunk expects at least a 1-dimensional tensor原创 2022-12-19 08:46:49 · 2510 阅读 · 0 评论 -
Linux上VSCODE无法打开web视图,“Webview Service Worker Error in registration due to invalid document state”
解决linux中vscode无法打开web视图原创 2022-07-08 02:54:20 · 7765 阅读 · 2 评论 -
virtualenv虚拟环境import torch遇到cannot import name ‘packaging‘ from ‘pkg_resources‘
python 版本:3.8安装pytorch方式:piptorch版本:1.10.0系统:Linux问题描述:$ python>>> import torch错误详细信息Traceback (most recent call last): File "<stdin>", line 1, in <module> File "/project/6019271/siyi/siyi_projects/ENV/lib/python3.8/site-原创 2022-05-25 03:15:18 · 5615 阅读 · 2 评论 -
[Linux服务器]内存和缓存的清理
今天发现跑深度学习程序时,服务器会很卡并直接掉线,要过很久才能重新连接。最开始以为是gpu的问题,但是上周在跑同样batch的数据时没有遇到问题,与朋友讨论后认为是cpu内存爆掉了的原因。以下是完整的修复过程1.查看内存使用free -h 查看内存和缓存watch free -h 实时查看内存和缓存发现不跑程序的时候,占用达到了71g2.清理碎片最开始认为可能是系统之前运行程序留下的缓存文件,所以使用清理缓存的方法。sudo -s # 进入到管理员模式sync # 在清理缓原创 2021-03-22 10:30:05 · 5241 阅读 · 1 评论 -
[Linux服务器]跑深度学习框架常用指令和使用指南Mac
跑深度学习框架常用指令和使用指南Mac1. 连接app的选择2. 连接需要的信息3. 操作步骤3.1 进入指定文件夹3.2 设置环境3.3 训练前准备3.4 训练过程3.5 关闭训练程序3.6 查看tensorboad训练图4. 其他常用指令1. 连接app的选择window下:可视化传文件使用winscp,在命令行输入指令使用putty或xshell等Mac下:可视化传文件使用ForkLift,在命令行输入指令使用Mac自带的终端使用方法2. 连接需要的信息服务器的用户名如 ubuntu原创 2021-03-14 21:18:56 · 734 阅读 · 0 评论 -
[Linux服务器]使用mac登陆服务器的方式和软件
命令行界面使用putty软件,简单易上手使用mac终端连接可以参考这两个链接1和2是两种不同的方式,但要注意的是,如果端口号不是默认22 则需要写 name@xxxx -p 端口号。图形界面为了方便向服务器上传文件,所以希望能够找到一个图形界面的软件能够查看本地和服务器的文件夹。在window系统下可以使用winscp,而在macos系统,我根据这篇文章 在appstore里面找到了folklift软件,界面几乎和winscp一样,十分方便。...原创 2021-03-01 19:04:26 · 426 阅读 · 0 评论 -
[Linux服务器 错误] RuntimeError: cuDNN error: CUDNN_STATUS_BAD_PARAM
这是因为数据类型不一致造成的。我出现的原因是因为Numpy默认产生的数据是float64, 而之前的数据都是float32。所以改变构造数据的代码如下A = np.ones([1,5], dtype = float32)另一个错误“RuntimeError: expected type torch.cuda.DoubleTensor but got torch.cuda.FloatTensor”是由于没有把tensor变成cuda并且数据类型不一致添加 .cuda() 并由上文一样检查数据类型原创 2020-10-08 16:58:50 · 2751 阅读 · 0 评论 -
[Linux服务器 错误] nohup: ignoring input and appending output t o ‘nohup.out‘
并不一定是出现了错误。使用nvidia-smi或tail -fn 50 nohup.out检查一下程序是否在运行原创 2020-10-08 16:53:59 · 2381 阅读 · 1 评论 -
[Linux服务器 错误] TypeError: can‘t convert CUDA tensor to numpy. Use Tensor.cpu() to copy the tensor
这一错误出现的原因是对之前的cuda中的张量又使用numpy进行计算。检查代码使用A.data.cpu().numpy()变换一下即可继续原创 2020-10-08 16:52:18 · 295 阅读 · 0 评论 -
[Linux服务器 错误] RunTimeError: Cannot join current thread
关于线程的错误。我的训练指令是nohup python train.py --config-yml configs/lf_disc_faster_rcnn_x101.yml --load-pthpath checkold/checkpoint_31.pth --validate --gpu-id 0 1 --cpu-workers 8 &把cup-worker改成4个就可以了,原因应该是训练和测试同时的时候,都是8个 服务器没那么多...原创 2020-08-08 19:33:42 · 752 阅读 · 1 评论 -
[Linux服务器 错误] 使用xshell connection failed
使用其他的终端平台就可以,唯独xshell不行。不要犹豫,果断放弃,改使用putty,问题解决原创 2020-08-08 16:04:05 · 1620 阅读 · 2 评论