tcmalloc在sylixos上的移植和优化(1)

Sylixos现有的内存分配机制和tcmalloc优点

Sylixos中的malloc使用dlmalloc或ptmalloc来实现,dlmalloc在多核处理器多线程调用malloc的情况下,存在内存分配的竞争等待问题。原因是dlmalloc内存管理中只存在一个内存分配区,当多线程同时调用malloc时,都需要对该分配区进行互斥量的加锁操作,导致分配内存运行效率较低,线程运行的时间抖动较大。
ptmalloc使用自旋锁对内存分配区进行加锁,相对dlmalloc而言,ptmalloc的整体效率有明显的提升,但无论是自旋锁,还是信号量,都同样存在竞争等待导致的线程运行时间抖动较大的问题,另外ptmalloc的自旋锁在多次获取不到锁情况下,会产生2ms的延时,使ptmalloc在某些情况的时间抖动更严重。
tcmalloc在实现机制上,为每个线程分配了一个线程本地ThreadCache,分配32KB以下的小内存时,直接从ThreadCache分配,而非由多线程共用的内存分配区获取,从而避免了多线程之间相互竞争问题。tcmalloc对于大内存的分配则类似于ptmalloc的管理机制,也存在竞争问题,但实际用户使用中,以低于32KB的小内存分配为主。

tcmalloc的移植

tcmalloc源码来源于gperftools-2.7.90

1:移植所需文件的目录结构:
libtcmalloc/src目录
在这里插入图片描述
libtcmalloc/src/base目录在这里插入图片描述

libtcmalloc/gperftools目录在这里插入图片描述
libtcmalloc/third_party目录
在这里插入图片描述
2:手动添加文件/src/tcmalloc_sbkr.h,这里tcmalloc使用了ptmalloc的sbrk
在这里插入图片描述
3:memory_region_map.cc文件添加tcmalloc_sbrk.h头文件支持
在这里插入图片描述
4:system-alloc.cc文件添加tcmalloc_sbrk.h头文件支持在这里插入图片描述
5:替换atomicops-internals-x86.h文件#if defined(x86_64) #else下的同名函数为以下内容
在这里插入图片描述
6:在config.h头文件中取消系统不支持的功能,不支持功能如下
//#define HAVE_FEATURES_H 1
//#define HAVE_FORK 1
//#define HAVE_GLOB_H 1
//#define HAVE_LINUX_PTRACE_H 1
//#define HAVE_PROGRAM_INVOCATION_NAME 1
//#define HAVE_STRUCT_MALLINFO 1
//#define HAVE_SYS_SYSCALL_H 1
//#define HAVE_SYS_UCONTEXT_H 1
//#define HAVE_UCONTEXT_H 1
//#define HAVE___ENVIRON 1

7:编译成功后,用户应用链接libtcmalloc.so库后,malloc会被tcmalloc中的malloc所替代,如果不想被替代,需要取消libc_override_gcc_and_weak.h中的别名替代

移植成功后性能测试

测试环境:

X86 4核32位处理器,内存2GB

测试条件:

运行4个线程,调度策略采用SCHED_FIFO,最高优先级的线程3(线程编号0-3)运行在核心3(核心编号0-3)上,其余线程运行在核心0-2

测试过程:

过程分为申请内存,数据拷贝,释放内存3个步骤,申请内存size为{16, 64, 128, 256, 512, 1024, 4x1024, 16x1024, 40x1024, 128x1024}这几种,第一轮申请16字节内存128次,第二轮申请64字节128次,以此类推,共10轮循环,其中每轮循环重复1000次,计算出消耗的最小时间,最大时间和平均时间。每一轮申请内存后进行内存拷贝,最后释放内存。
测试结果如下:
step 0 :申请内存,step 1:内存拷贝,step 2:内存释放,min最小时间,max最大时间,avg平均时间
tcmalloc测试时间统计:
Testing…(step0-malloc, step1-copy, step2-free)
Thread 3: malloc size 16Byte result:
Thread 3: step 0, min 1454us, max 1663us, avg 1481us
Thread 3: step 1, min 7us, max 10us, avg 8us
Thread 3: step 2, min 1468us, max 2319us, avg 1485us
Thread 3: malloc size 64Byte result:
Thread 3: step 0, min 1483us, max 2341us, avg 1499us
Thread 3: step 1, min 30us, max 31us, avg 30us
Thread 3: step 2, min 1491us, max 2225us, avg 1503us
Thread 3: malloc size 128Byte result:
Thread 3: step 0, min 1471us, max 1883us, avg 1495us
Thread 3: step 1, min 56us, max 57us, avg 56us
Thread 3: step 2, min 1475us, max 1771us, avg 1499us
Thread 3: malloc size 256Byte result:
Thread 3: step 0, min 1468us, max 1580us, avg 1495us
Thread 3: step 1, min 111us, max 113us, avg 112us
Thread 3: step 2, min 1473us, max 1555us, avg 1500us
Thread 3: malloc size 512Byte result:
Thread 3: step 0, min 1472us, max 1535us, avg 1495us
Thread 3: step 1, min 221us, max 223us, avg 221us
Thread 3: step 2, min 1474us, max 1544us, avg 1499us
Thread 3: malloc size 1024Byte result:
Thread 3: step 0, min 1471us, max 1541us, avg 1494us
Thread 3: step 1, min 441us, max 444us, avg 442us
Thread 3: step 2, min 1475us, max 1533us, avg 1499us
Thread 3: malloc size 4096Byte result:
Thread 3: step 0, min 1478us, max 1544us, avg 1495us
Thread 3: step 1, min 463us, max 487us, avg 468us
Thread 3: step 2, min 1486us, max 1605us, avg 1503us
Thread 3: malloc size 16384Byte result:
Thread 3: step 0, min 1484us, max 1538us, avg 1501us
Thread 3: step 1, min 446us, max 462us, avg 448us
Thread 3: step 2, min 1496us, max 1558us, avg 1511us
Thread 3: malloc size 40960Byte result:
Thread 3: step 0, min 1486us, max 1756us, avg 1510us
Thread 3: step 1, min 447us, max 642us, avg 450us
Thread 3: step 2, min 1468us, max 1564us, avg 1513us
Thread 3: malloc size 131072Byte result:
Thread 3: step 0, min 1550us, max 1795us, avg 1584us
Thread 3: step 1, min 456us, max 686us, avg 461us
Thread 3: step 2, min 1519us, max 1590us, avg 1546us

ptmalloc测试时间统计:
Thread 3: malloc size 16Byte result:
Thread 3: step 0, min 24us, max 26us, avg 25us
Thread 3: step 1, min 7us, max 9us, avg 7us
Thread 3: step 2, min 12us, max 13us, avg 12us
Thread 3: malloc size 64Byte result:
Thread 3: step 0, min 24us, max 26us, avg 24us
Thread 3: step 1, min 30us, max 31us, avg 30us
Thread 3: step 2, min 12us, max 13us, avg 12us
Thread 3: malloc size 128Byte result:
Thread 3: step 0, min 24us, max 27us, avg 24us
Thread 3: step 1, min 55us, max 58us, avg 55us
Thread 3: step 2, min 12us, max 13us, avg 12us
Thread 3: malloc size 256Byte result:
Thread 3: step 0, min 24us, max 27us, avg 24us
Thread 3: step 1, min 112us, max 115us, avg 112us
Thread 3: step 2, min 12us, max 14us, avg 12us
Thread 3: malloc size 512Byte result:
Thread 3: step 0, min 33us, max 36us, avg 33us
Thread 3: step 1, min 222us, max 226us, avg 222us
Thread 3: step 2, min 12us, max 15us, avg 12us
Thread 3: malloc size 1024Byte result:
Thread 3: step 0, min 34us, max 56us, avg 34us
Thread 3: step 1, min 441us, max 469us, avg 442us
Thread 3: step 2, min 12us, max 36us, avg 13us
Thread 3: malloc size 4096Byte result:
Thread 3: step 0, min 34us, max 98us, avg 44us
Thread 3: step 1, min 448us, max 582us, avg 455us
Thread 3: step 2, min 12us, max 59us, avg 21us
Thread 3: malloc size 16384Byte result:
Thread 3: step 0, min 55us, max 71us, avg 57us
Thread 3: step 1, min 535us, max 619us, avg 539us
Thread 3: step 2, min 27us, max 92us, avg 32us
Thread 3: malloc size 40960Byte result:
Thread 3: step 0, min 84us, max 109us, avg 92us
Thread 3: step 1, min 526us, max 607us, avg 536us
Thread 3: step 2, min 25us, max 169us, avg 33us
Thread 3: malloc size 131072Byte result:
Thread 3: step 0, min 6159us, max 6595us, avg 6432us
Thread 3: step 1, min 526us, max 546us, avg 532us
Thread 3: step 2, min 5521us, max 6947us, avg 6236us

结论

从上面测试时间的结论来看,Sylixos下ptmalloc在申请40KB以下内存时,效率远远高于新移植的tcmalloc,在40KB以上内存的申请效率上,tcmalloc则优于ptmalloc大概4倍左右的。此结果完全不符合tcmalloc的性能描述,从最终测试成绩看,tcmalloc反而和效率较差的dlmalloc性能非常接近,因此必定存在tcmalloc在Sylixos上的优化问题,待续…

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值