PyTorch
Peter_ch_26
热爱生活,热爱编程
展开
-
C++ onnxruntime多进程/多线程CPU推理时出现内存泄漏问题(memory leak)
压测的时候发现,进程的RSS内存一直在上升,就怀疑是onnxruntime导致的。因此,没加模型推理前,是不存在内存泄漏的。不知道,还没看出来。但估计可能是多线程/进程环境中mem会发送竞争吧。,可以解决内存泄漏的问题。后, 额外添加一个配置项。原创 2023-06-08 16:23:31 · 2754 阅读 · 5 评论 -
PyTorch错误定位系列之DDP训练中 double free or corruption (out)
解决pytorch训练中DDP报 double free or corruption原创 2022-08-31 20:47:13 · 1430 阅读 · 0 评论 -
PyTorch训练过程中只保存topN个模型文件
pytorch保存topN个模型结果文件原创 2022-08-31 11:35:59 · 170 阅读 · 0 评论 -
Onnxruntime Java loading的内存溢出&持续增长问题
Onnxruntime Java loading的内存溢出&持续增长问题背景业务服务内存持续增加,看了一大堆文章分析来分析去也搞明白。尝试用jstat,jmap gdb perf MAT等工具分析了jvm的情况,总结一句话堆内内存没问题。 问题出在了堆外内存上。又从github onnxruntime的issue上找到了问题所在 https://github.com/microsoft/onnxruntime/issues?q=memory+leak。问题原因OnnxTensor和Or原创 2022-02-16 15:35:11 · 2204 阅读 · 8 评论 -
PyTorch错误定位系列之CUDA error: device-side assert triggered
PyTorch错误定位系列之CUDA error: device-side assert triggeredIntroduction本栏目只是提供一些自己遇到的错误的解决思路。Background我昨天写了个模型加了focal loss可以训练,今天换了一批数据,尼玛第二个epoch就报了上面标题这个错误。Solution经过本人,本菜鸡的大量调研(google),发现该错误可以总结为tensor溢出了或者下溢了。所以按着这个思路,我就尝试把我加的focal loss给去掉了,换成了正常的nn原创 2021-10-09 17:44:05 · 7907 阅读 · 5 评论 -
PyTorch错误收集与解决方法
PyTorch错误收集与解决方法文章目录PyTorch错误收集与解决方法RNN的初始状态在多GPU训练报错RuntimeError: module must have its parameters and buffers on device cuda:0 (device_ids[0]) but found one of them on device: cpuRNN module weights are not part of single contiguous chunk of memoryRuntime原创 2020-05-28 01:27:55 · 10105 阅读 · 1 评论