- 博客(5)
- 收藏
- 关注
转载 报错undefined symbol: free_gemm_select, version libcublasLt.so.11
OSError: /miniconda3/envs/mdm/lib/python3.7/site-packages/torch/lib/../../../../libcublas.so.11: symbol free_gemm_select version libcublasLt.so.11 no根据github。是因为版本冲突问题导致。解答问题源:根据github。是因为版本冲突问题导致。
2024-04-18 08:57:23 417 1
原创 RuntimeError: unsupported operation: some elements of the input tensor and the written-to tensor ref
原因应该是nn.register_buffer、torch版本和DDP之间的问题,因为我对model进行单卡测试时无报错,so。,我之前也因为self.register_buffer('pe', pe)这行代码遇到过其他报错,总之 使用PositionalEncoding且多卡并行时注意一下这里。调用 model时出现如题报错,换用其他model没报错,google了下,问题在PositionalEncoding中。
2024-03-06 15:33:50 545 1
原创 to(device)赋值踩坑
1)to(device)后不赋值就没问题,或者2)用其他的模型类也没问题,所以就是这个模型实例化与这行代码之间可能有python底层的什么bug?我没再细查了,因为网上查不到相关的资料,就连我这个问题我都很难查到,碰巧看到参考博客才发现了解决方法,但至于它为什么会这样,不懂。model.to(device)不赋值。
2024-03-06 14:18:14 423 1
原创 pytorch报错:ValueError: num_samples should be a positive integer value, but got num_samples=0
然后pdb发现 len(train_dataset)确实为0, 由于之前调试quit导致数据没处理好导致的,debug完成。这时很疑惑,这不是官方的dataloader很正常地调用吗?之后在其他博主的评论区找到了答案,可能因为。调试时发现这段代码报错。
2024-01-23 09:58:10 776
原创 conda安装GPU版pytorch,结果却是cpu版本[已解决]
这种原因在于安装源里找不到对应的,但我用的是官方的安装源,还是找不到就很奇怪,后面搜到以往安装torch1.9.0都配的cuda11.1而不是cuda11.3。按官方文档安装pytorch1.9.0。修改cuda版本为11.1成功。安装的一直是cpu版本。
2024-01-16 10:29:11 808 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人