字节Android Native Crash治理之Memory Corruption工具原理与实践


作者:字节跳动终端技术——庞翔宇

内容摘要

​ MemCorruption工具是字节跳动AppHealth (Client Infrastructure - AppHealth) 团队开发的一款用于定位野指针(UseAfterFree)、内存越界(HeapBufferOverflow)、重复释放(DoubleFree)类问题检测工具。广泛用于字节跳动旗下各大 App 线上问题检测。本文将通过方案原理和实践案例来介绍此工具。

背景

​ 随着 Android App 开发的技术栈不断向Native层扩展,带来的线上Native稳定性问题日趋严重。Android中有超过半数的漏洞都来源于Memory Corruption问题。分析定位线上此类问题的难点在于,首先线下难复现,其次问题发生时已经不是第一案发现场,且此类问题调用栈表现类型多样化。这就导致了此类问题短期内难分析、难定位、难解决的现状。

什么是Memory Corruption问题

UseAfterFree

UseAfterFree下面简称UAF,野指针类问题;

void HeapUseAfterFree() {
  int *ptr1 = (int*)malloc(4);
  if(ptr1 != NULL){
    *ptr1 = 0xcccc;
    free(ptr1);           //free ptr1           
    *ptr1 = 0xabcd;       //free后write ptr1 mem这里不会崩溃
  }
}

​ 这里以UAF问题说明Native崩溃后不是第一现场的场景。假设上面代码运行在线程A,第2行申请4byte大小的一块堆内存,第5行释放这块堆内存,执行第6行前线程A时间片执行完,切换到线程B执行,线程B此时申请4byte大小的内存块,内存管理器会概率性的分配之前已经释放的ptr1指向的内存块分配给线程B使用,线程B给ptr2指向内存赋值0xff,之后线程B时间片执行完让出CPU,切换线程A执行,ptr1被赋值0xabcd,之后切换回线程B进行条件判断,ptr2内存值不为0xff触发异常逻辑。不是线程B预期的值。这样的场景在大型的App程序运行过程中时有发生。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-os3EN3eo-1635736391205)( http://lf3-client-infra.bytetos.com/obj/client-infra-images/memCorruption/Android_mem_1.png)]

DoubleFree

DoubleFree下面简称DF,堆内存二次释放类问题;

void DoubleFree() {
   
  int *ptr = (int*)malloc(4);
  free(ptr);
  free(ptr);
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: PyTorch是一个非常流行的深度学习框架,支持多任务训练。然而,有时候在使用PyTorch进行多任务训练时会遇到卡死和NCCL内存损坏的问题。 卡死和NCCL内存损坏通常是由于内存管理问题引起的。在多任务训练过程中,每个任务都需要占用一定的内存资源。当这些任务同时执行,并且内存资源不足时,就可能导致卡死和NCCL内存损坏的问题。 要解决这个问题,可以尝试以下几种方法: 1. 减小批量大小:通过减小每个任务的批量大小,可以降低单个任务的内存占用,从而减少卡死和内存损坏的风险。但这也可能会影响模型的训练效果,需要根据具体情况进行权衡。 2. 减少并行度:如果使用了多个GPU并行训练多个任务,可以尝试减少并行度,例如减少使用的GPU数量。这样可以减少每个任务所需的内存资源,并降低卡死和内存损坏的概率。 3. 增加内存资源:如果硬件条件允许,可以尝试增加系统的内存资源。这样可以提供更多的内存给每个任务使用,减少卡死和内存损坏的可能性。 4. 优化模型和代码:还可以尝试对模型和代码进行优化,减少内存的占用。例如,可以使用更小的模型或者减少不必要的计算,以减少内存的使用量。 总之,卡死和NCCL内存损坏是PyTorch多任务训练中常见的问题,但可以通过减小批量大小、减少并行度、增加内存资源或优化模型和代码来解决。 ### 回答2: 在PyTorch中,多任务并行运行可能会遇到卡死和NCCL内存损坏的问题。这通常是因为多个任务同时访问同一GPU设备上的内存而导致的。 要解决该问题,可以考虑以下几点: 1. 使用多个GPU设备进行任务并行运行:将多个任务分配到不同的GPU设备上,以避免内存访问冲突。可以使用`torch.nn.DataParallel`或`torch.nn.parallel.DistributedDataParallel`来实现多GPU任务并行。 2. 减少模型的内存占用:可以采取多种措施来减少模型的内存占用。例如,可以减少模型的参数数量、减少卷积层或全连接层的尺寸,或者使用更轻量级的模型。 3. 减小每个任务的批量大小:在多任务并行运行中,每个任务的批量大小可能会导致内存占用过高。可以尝试减小每个任务的批量大小,以减少内存压力。 4. 检查GPU驱动和CUDA版本的兼容性:卡死和内存损坏问题有时也可能与GPU驱动和CUDA版本的兼容性有关。建议更新或降低驱动和CUDA版本,并确保它们与PyTorch版本兼容。 5. 优化模型和训练过程:进行模型和训练过程的优化也可能有助于解决问题。可以尝试使用更高效的模型结构、优化算法和超参数设置,以减少对GPU内存的需求。 总而言之,卡死和NCCL内存损坏问题通常是由于多任务并行运行中的内存访问冲突所导致的。通过合理分配任务到不同GPU、减少内存占用、调整批量大小、检查驱动和CUDA版本的兼容性,以及优化模型和训练过程,可以减少或解决该问题。 ### 回答3: PyTorch 是一个流行的深度学习框架,允许用户在GPU上进行高效的深度学习任务。多任务是指在一个模型中同时执行多个不同的任务。"卡死 nccl memory corruption" 是一个错误信息,指出发生了内存损坏和卡死。 造成这个错误的原因可能有多种,一些常见的原因包括以下几点: 1. GPU 内存不足:多任务执行时,每个任务需要分配一定的GPU内存。如果模型或数据量过大,可能导致内存不足,从而出现内存损坏和卡死现象。 2. 跨 GPU 通信问题:当多个 GPU 同时执行多个任务时,它们之间需要进行通信以共享参数和梯度。如果通信不正确,可能导致内存损坏和程序卡死。 解决这个问题的方法有以下几种: 1. 减小模型或数据规模:可以尝试减小深度学习模型的大小或缩小输入数据规模,以减少内存占用。 2. 使用更大的内存:如果内存不足,可以考虑升级GPU,使用具备更大内存容量的显卡。 3. 使用分布式训练:如果使用多个GPU进行多任务训练,可以尝试使用PyTorch的分布式训练功能,将任务分配到多个节点上,以减少单个GPU的内存占用。 4. 检查代码错误:检查代码中是否有内存管理、并行处理或通信方面的错误,例如确保正确使用PyTorch的GPU内存管理和通信函数、正确调用分布式训练 API 等。 总之,修复"卡死 nccl memory corruption"错误需要进一步调查具体原因,并根据原因采取相应的解决方法。这可能涉及调整模型或数据规模,升级硬件,使用分布式训练,或者检查代码中的错误。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值