memory corruption

 

http://blog.csdn.net/wallacexiang/article/details/4300831

*** glibc detected *** free(): invalid pointer:
*** glibc detected *** malloc(): memory corruption:
*** glibc detected *** double free or corruption (out): 0x00000000005c18a0 ***
*** glibc detected *** corrupted double-linked list: 0x00000000005ab150 ***

你是否遇到过这样的情况,太沮丧了,程序总是无端coredump,gdb到core文件里面也看不出个所以然来,这对于一个大型的商业系统来说太令人恐怖了,事故随时可能发生。

遇到棘手的问题,慌张是没用的,解决不了任何问题。先坐下来,喝杯茶,舒缓一下神经。

内存问题始终是c++程序员需要去面对的问题,这也是c++语言的门槛较高的原因之一。通常我们会犯的内存问题大概有以下几种:

1.内存重复释放,出现double free时,通常是由于这种情况所致。
2.内存泄露,分配的内存忘了释放。
3.内存越界使用,使用了不该使用的内存。
4.使用了无效指针。
5.空指针,对一个空指针进行操作。


对于第一种和第二种,第五种情况,就不用多说,会产生什么后果大家应该都很清楚。

第四种情况,通常是指操作已释放的对象,如:
1.已释放对象,却再次操作该指针所指对象。
2.多线程中某一动态分配的对象同时被两个线程使用,一个线程释放了该对象,而另一线程继续对该对象进行操作。

我们重点探讨第三种情况,相对于另几种情况,这可以称得上是疑难杂症了(第四种情况也可以理解成内存越界使用)。

内存越界使用,这样的错误引起的问题存在极大的不确定性,有时大,有时小,有时可能不会对程序的运行产生影响,正是这种不易重现的错误,才是最致命的,一旦出错破坏性极大。

什么原因会造成内存越界使用呢?有以下几种情况,可供参考:
例1:
        char buf[32] = {0};
        for(int i=0; i<n; i++)// n < 32 or n > 32
        {
            buf[i] = 'x';
        }
        ....
        
例2:
        char buf[32] = {0};
        string str = "this is a test sting !!!!";
        sprintf(buf, "this is a test buf!string:%s", str.c_str()); //out of buffer space
        ....
        
例3:
        string str = "this is a test string!!!!";
        char buf[16] = {0};
        strcpy(buf, str.c_str()); //out of buffer space
        
类似的还存在隐患的函数还有:
        strcat,vsprintf等

同样,memcpy, memset, memmove等一些内存操作函数在使用时也一定要注意。
        
当这样的代码一旦运行,错误就在所难免,会带来的后果也是不确定的,通常可能会造成如下后果:

1.破坏了堆中的内存分配信息数据,特别是动态分配的内存块的内存信息数据,因为操作系统在分配和释放内存块时需要访问该数据,一旦该数据被破坏,以下的几种情况都可能会出现。
        *** glibc detected *** free(): invalid pointer:
        *** glibc detected *** malloc(): memory corruption:
        *** glibc detected *** double free or corruption (out): 0x00000000005c18a0 ***
        *** glibc detected *** corrupted double-linked list: 0x00000000005ab150 ***        

2.破坏了程序自己的其他对象的内存空间,这种破坏会影响程序执行的不正确性,当然也会诱发coredump,如破坏了指针数据。

3.破坏了空闲内存块,很幸运,这样不会产生什么问题,但谁知道什么时候不幸会降临呢?

通常,代码错误被激发也是偶然的,也就是说之前你的程序一直正常,可能由于你为类增加了两个成员变量,或者改变了某一部分代码,coredump就频繁发生,而你增加的代码绝不会有任何问题,这时你就应该考虑是否是某些内存被破坏了。

排查的原则,首先是保证能重现错误,根据错误估计可能的环节,逐步裁减代码,缩小排查空间。
检查所有的内存操作函数,检查内存越界的可能。常用的内存操作函数:
sprintf snprintf
vsprintf vsnprintf
strcpy strncpy strcat
memcpy memmove memset bcopy

如果有用到自己编写的动态库的情况,要确保动态库的编译与程序编译的环境一致。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: PyTorch是一个非常流行的深度学习框架,支持多任务训练。然而,有时候在使用PyTorch进行多任务训练时会遇到卡死和NCCL内存损坏的问题。 卡死和NCCL内存损坏通常是由于内存管理问题引起的。在多任务训练过程中,每个任务都需要占用一定的内存资源。当这些任务同时执行,并且内存资源不足时,就可能导致卡死和NCCL内存损坏的问题。 要解决这个问题,可以尝试以下几种方法: 1. 减小批量大小:通过减小每个任务的批量大小,可以降低单个任务的内存占用,从而减少卡死和内存损坏的风险。但这也可能会影响模型的训练效果,需要根据具体情况进行权衡。 2. 减少并行度:如果使用了多个GPU并行训练多个任务,可以尝试减少并行度,例如减少使用的GPU数量。这样可以减少每个任务所需的内存资源,并降低卡死和内存损坏的概率。 3. 增加内存资源:如果硬件条件允许,可以尝试增加系统的内存资源。这样可以提供更多的内存给每个任务使用,减少卡死和内存损坏的可能性。 4. 优化模型和代码:还可以尝试对模型和代码进行优化,减少内存的占用。例如,可以使用更小的模型或者减少不必要的计算,以减少内存的使用量。 总之,卡死和NCCL内存损坏是PyTorch多任务训练中常见的问题,但可以通过减小批量大小、减少并行度、增加内存资源或优化模型和代码来解决。 ### 回答2: 在PyTorch中,多任务并行运行可能会遇到卡死和NCCL内存损坏的问题。这通常是因为多个任务同时访问同一GPU设备上的内存而导致的。 要解决该问题,可以考虑以下几点: 1. 使用多个GPU设备进行任务并行运行:将多个任务分配到不同的GPU设备上,以避免内存访问冲突。可以使用`torch.nn.DataParallel`或`torch.nn.parallel.DistributedDataParallel`来实现多GPU任务并行。 2. 减少模型的内存占用:可以采取多种措施来减少模型的内存占用。例如,可以减少模型的参数数量、减少卷积层或全连接层的尺寸,或者使用更轻量级的模型。 3. 减小每个任务的批量大小:在多任务并行运行中,每个任务的批量大小可能会导致内存占用过高。可以尝试减小每个任务的批量大小,以减少内存压力。 4. 检查GPU驱动和CUDA版本的兼容性:卡死和内存损坏问题有时也可能与GPU驱动和CUDA版本的兼容性有关。建议更新或降低驱动和CUDA版本,并确保它们与PyTorch版本兼容。 5. 优化模型和训练过程:进行模型和训练过程的优化也可能有助于解决问题。可以尝试使用更高效的模型结构、优化算法和超参数设置,以减少对GPU内存的需求。 总而言之,卡死和NCCL内存损坏问题通常是由于多任务并行运行中的内存访问冲突所导致的。通过合理分配任务到不同GPU、减少内存占用、调整批量大小、检查驱动和CUDA版本的兼容性,以及优化模型和训练过程,可以减少或解决该问题。 ### 回答3: PyTorch 是一个流行的深度学习框架,允许用户在GPU上进行高效的深度学习任务。多任务是指在一个模型中同时执行多个不同的任务。"卡死 nccl memory corruption" 是一个错误信息,指出发生了内存损坏和卡死。 造成这个错误的原因可能有多种,一些常见的原因包括以下几点: 1. GPU 内存不足:多任务执行时,每个任务需要分配一定的GPU内存。如果模型或数据量过大,可能导致内存不足,从而出现内存损坏和卡死现象。 2. 跨 GPU 通信问题:当多个 GPU 同时执行多个任务时,它们之间需要进行通信以共享参数和梯度。如果通信不正确,可能导致内存损坏和程序卡死。 解决这个问题的方法有以下几种: 1. 减小模型或数据规模:可以尝试减小深度学习模型的大小或缩小输入数据规模,以减少内存占用。 2. 使用更大的内存:如果内存不足,可以考虑升级GPU,使用具备更大内存容量的显卡。 3. 使用分布式训练:如果使用多个GPU进行多任务训练,可以尝试使用PyTorch的分布式训练功能,将任务分配到多个节点上,以减少单个GPU的内存占用。 4. 检查代码错误:检查代码中是否有内存管理、并行处理或通信方面的错误,例如确保正确使用PyTorch的GPU内存管理和通信函数、正确调用分布式训练 API 等。 总之,修复"卡死 nccl memory corruption"错误需要进一步调查具体原因,并根据原因采取相应的解决方法。这可能涉及调整模型或数据规模,升级硬件,使用分布式训练,或者检查代码中的错误。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值