dlmalloc 简析

******************************************************************
By Sky
http://blog.csdn.net/ykdsea/
******************************************************************


本文基于android 4.4所用的dlmalloc版本进行分析。

malloc/free work flow


malloc/free是libc库提供的函数,主要是用户层的操作,而不是内核的系统调用。
一般的heap管理是通过sbrk或者mmap函数来向系统获取大量的内存(只是虚拟的内存地址),然后由特定的heap管理算法来管理用户程序申请/释放内存(比如dlmalloc)。有一点注意,brk/sbrk获取的只是虚拟地址,当这些地址被访问的时候,才会产生page fault,真实的物理内存才会被分配出来。

Free的时候,内存也只是返还给内存管理程序了,而不是直接返还给系统。当内存管理程序发现保留了过多的内存的时候,可以通过umap或者brk/sbrk来把内存还给系统。

mmap的使用:
一般情况下,系统是使用brk/sbrk来扩展可用内存的。在某些特殊情况下,会考虑使用mmap来直接申请对应的内存,这个做法可以减少内存中空洞存在,他的缺点是速度比较慢。
在dlmalloc中,是在查找没有可用的free chunk的时候,并且分配的size大于一定的值的时候,会使用mmap直接分配。

dlmalloc


android中采用的dlmalloc为默认的heap管理算法。
dlmalloc的介绍说明:http://gee.cs.oswego.edu/dl/html/malloc.html

dlmalloc的配置:(基于android 4.4的code)
dlmalloc中有配置选项来适应不同的使用环境。
USE_LOCKS:是否使用lock,在多线程使用环境下需要考虑enable,如果外部已经有所就不需要了。
HAVE_MMAP:系统是否支持mmap。
USE_DL_PREFIX:是否需要提供dl相关的接口。
MSPACES:是否需要提供mspace相关的接口。
ONLY_MSPACES:是否只提供mspace相关的接口。
DEFAULT_MMAP_THRESHOLD:使用mmap进行分配的阀值。

dlmalloc的管理策略:
Boundary Tags (边界标记)
在分配的chunk的头部和尾部都记录了当前chunk的size。
这样有两个好处:
1)从任意一个chunk都可以访问前一个/后一个chunk。
2)方便相邻的两个chunk合并为一个大的chunk。

Binning (分箱)
binning是按照byte size来分的,低于256 bytes的chunk,以8为增量,分为8,16,24...256bytes来分箱,每个bin中所有的free chunk用链表来组织。
大于256 bytes的chunk,是用tree来维护free chunk的(同时配合使用了链表)。
分箱的好处是:
浪费少量内存,来达到快速分配的目的。在分配的时候,可以直接找到对应的bin来拿到free chunk。

 

关键的数据结构理解


malloc_chunk

struct malloc_chunk {
  size_t prev_foot; /* Size of previous chunk (if free). */
  size_t head; /* Size and inuse bits. */
  struct malloc_chunk* fd; /* double links -- used only if free. */
  struct malloc_chunk* bk;
};


prev_foot
prev_foot是记录前一个chunk的size,但是这个成员的设置并不是在当前的chunk建立的时候去做的。
在使用的时候,当某个chunk被申请了,他会使用
#define set_foot(p, s) (((mchunkptr)((char*)(p) + (s)))->prev_foot = (s))
在他的data后面设定他的size,他实际操作的是下一个chunk的prev_root的值。
这个和http://gee.cs.oswego.edu/dl/html/malloc.html里面的图示也是一致的,在头部和尾部保留了当前chunk的size。

这边有疑问:为什么前一个chunk的尾部一定后一个chunk的头部?
1,申请内存的时候,是按照8bytes为界分配的(包括额外的信息)。
2,因为采用分箱的策略,分配的时候,总是从大的chunk分裂出小的chunk出来的,所以可以保证不会存在
不能使用的memory hole在内存中。
这两点保证所有的chunk是连续在一起的,而且可以直接合并,在合并之后他们的字节数还是8 bytes为界的。

head
head中记录了当前chunk的状态,还有size。
状态占用低3个bit(因为chunk为8bytes倍数,所以低3位一直是0的)。

fd和bk
fd是forward pointer,bk是backward pointer,他们是构成Free list的时候指向前一个和后一个free chunk用的。
需要注意的时候,他们只在free chunk中使用,而在used chunk中不需要使用,所以没有为他们分配分配内存,是直接使用了
free chunk中user data部分的内存。

malloc_state

复制代码
struct malloc_state {
  binmap_t smallmap;
  binmap_t treemap;
  size_t dvsize;
  size_t topsize;
  char* least_addr;
  mchunkptr dv;
  mchunkptr top;
  size_t trim_check;
  size_t release_checks;
  size_t magic;
  mchunkptr smallbins[(NSMALLBINS+1)*2];
  tbinptr treebins[NTREEBINS];
  size_t footprint;
  size_t max_footprint;
  size_t footprint_limit; /* zero means no limit */
  flag_t mflags;
#if USE_LOCKS
  MLOCK_T mutex; /* locate lock among fields that rarely change */
#endif /* USE_LOCKS */
  msegment seg;
  void* extp; /* Unused but available for extensions */
  size_t exts;
};
复制代码

malloc_state是整个malloc全局的信息的保存。下面看看几个关键的成员变量。

mchunkptr smallbins[(NSMALLBINS+1)*2]
smallbins是对于small chunk的分箱(即小于256 bytes的chunk的bins)。smallbins对每个bin都构造了一个双向的链表,free的chunk link在当前的
bin中。

smallbins的长度(NSMALLBINS+1)*2是如何来的?
smallbins主要是构造一个双向链表,里面只需要保存两个pointer就可以实现了,所以他实际需要的是NSMALLBINS*2的大小即可。
同时dlmalloc中为了使用方便(并且统一)所以使用mallochunk结构中的fd和bk来指向chunk,所以在在数组头部pad了sizeof(prev_foot)+sizeof(head)=2个pointer的宽度。
这样就得到了NSMALLBINS*2+2 = (NSMALLBINS+1)*2的数组宽度了。

如何计算对应的bin index?
small bins是以8 bytes为间隔区分的,所以申请的size >> 3,就可以得到与之对应的bin index。
对应的宏是:#define smallbin_at(M, i) ((sbinptr)((void*)&((M)->smallbins[(i)<<1])))


tbinptr treebins[NTREEBINS]
treebins是对于大于256 bytes的chunk的bins。关于treebins可以参考文章:http://blog.sina.com.cn/s/blog_5674d18801019x0f.html
treebins中每个bin是用tree来管理的,所以只需要一个pointer来指向tree的root即可。

smallbins很简单以8bytes为step去分箱,那对于treebins是如何做的?
从code里面可以看到从malloc size计算出bin的方法如下

复制代码
#define compute_tree_index(S, I)\
{\
  unsigned int X = S >> TREEBIN_SHIFT;\
  if (X == 0)\
    I = 0;\
  else if (X > 0xFFFF)\
    I = NTREEBINS-1;\
  else {\
    unsigned int K = (unsigned) sizeof(X)*__CHAR_BIT__ - 1 - (unsigned) __builtin_clz(X); \
    I = (bindex_t)((K << 1) + ((S >> (K + (TREEBIN_SHIFT-1)) & 1)));\
  }\
}
复制代码

idx的划分主要是考虑0x100 ~ 0xFFFF00这段size如何被划分到0 ~ 30 index的bin中去的。
第一行K的运算中,__builtin_clz(X)先计算出了1之前有多少个0,然后用32 - 1去减,计算得到了最高位1之后的位数,注意这个是右移8位之后的计算结果,K + TREEBIN_SHIFT才是原始size的最高位1之后的位数。
第二行的运算中,K<<1,首先是按照最高位的offset(0 ~ 15)cast到(0~30),而((S >> (K + (TREEBIN_SHIFT-1)) & 1)),这一步实际检查最高位1的低1位是0还是1。

这样看就很清楚了,实际是根据最高位1之后的位数先把数值分成了15份,然后再把每一份一份为2,得到了最终0~30的映射。
如0x1000,最高位1后面的位数是4,得到它的idx范围是8~9,又因为低1位为0,所以他对应的idx就是8.


每个bin当中的tree是如何组织的?
分析宏

复制代码
/* Insert chunk into tree */
#define insert_large_chunk(M, X, S) {\
  tbinptr* H;\
  bindex_t I;\
  compute_tree_index(S, I);\
  H = treebin_at(M, I);\
  X->index = I;\
  X->child[0] = X->child[1] = 0;\
  if (!treemap_is_marked(M, I)) {\
    mark_treemap(M, I);\
    *H = X;\
    X->parent = (tchunkptr)H;\
    X->fd = X->bk = X;\
  }\
  else {\
    tchunkptr T = *H;\
    size_t K = S << leftshift_for_tree_index(I);\
    for (;;) {\
      if (chunksize(T) != S) {\
        tchunkptr* C = &(T->child[(K >> (SIZE_T_BITSIZE-SIZE_T_ONE)) & 1]);\
        K <<= 1;\
        if (*C != 0)\
          T = *C;\
        else if (RTCHECK(ok_address(M, C))) {\
          *C = X;\
          X->parent = T;\
          X->fd = X->bk = X;\
          break;\
        }\
        else {\
          CORRUPTION_ERROR_ACTION(M);\
          break;\
        }\
      }\
      else {\
        tchunkptr F = T->fd;\
        if (RTCHECK(ok_address(M, T) && ok_address(M, F))) {\
          T->fd = F->bk = X;\
          X->fd = F;\
          X->bk = T;\
          X->parent = 0;\
          break;\
        }\
        else {\
          CORRUPTION_ERROR_ACTION(M);\
          break;\
        }\
      }\
    }\
  }\
}
复制代码

从代码中可以看出插入节点的时候,
1,如果当前tree节点值和插入的一致,那么把这个节点插入到当前tree节点的链表中去。
2,如果不相等,除去最高两位的节点,检测之后每个bit是0还是1,来确认是选择节点的left child还是right child。
这样的策略,保证了对于任意一个节点,他的左子树上的节点值总是小于右子树上的值的。但是对于某个节点来说,他和他子树上节点的关系,只是保证不相等,不能保证一定大于或者小于他的子树的值。策略和trie tree类似了,但是又有一些差异。

find算法是怎么样的?
知道了insert的逻辑,那么find就比较好理解了。主要需要注意的是节点和子树的关系是不确定的,在find的时候,需要做比较。


smallmap和treemap
binmap_t是一个32bit的unsigned log,他的每个bit对应分箱策略中某个箱子是否有有效的chunk包含在内,这样主要是为了方便在分配的时候,快速查找到有效的bin。
smallmap对应着smallbins的每个bin的状态。
treemap对应着treebins的每个bin的状态。


dlmalloc是目前一个十分流行的内存分配器,其由Doug Lea(主页为http://gee.cs.oswego.edu/)从1987年开始编写,到目前为止,最新版本为2.8.3(可以从ftp://g.oswego.edu/pub/misc/malloc.c获取),由于其高效率等特点被广泛的使用(比如一些linux系统等用的就是dlmalloc或其变形,比如ptmalloc,主页为http://www.malloc.de/en/index.html)和研究(各位可以搜索关键字“GCspy”)。 dlmalloc的实现只有一个源文件(还有一个头文件),大概5000行,其内注释占了大量篇幅,由于有这么多注释存在的情况下,表面上看上去很容易懂,的确如此,在不追求细节的情况,对其大致思想的确很容易了解(没错,就只是了解而已),但是dlmalloc作为一个高品质的佳作,实现上使用了非常多的技巧,在实现细节上不花费一定的精力是没有办法深入理解其为什么这么做,这么做的好处在哪,只有当真正读懂后回味起来才发现它是如此美妙。 lenky0401个人博客将陆续推出对dlmalloc的解析(针对Doug Lea Malloc的最新版Version 2.8.3,未做说明的情况下以32位平台,8字节对齐作为假定平台环境设置考虑),由于个人水平有限,因此也不能完全保证对dlmalloc的所有理解都准备无误, 但是所有内容均出自个人的理解而并非存心妄自揣测来愚人耳目,所以如果读者发现其中有什么错误,请勿见怪,如果可以则请来信告之,并欢迎来信讨论(lenky0401@163.com)。 这一系列文章是lenky0401在看完dlmalloc的大部分代码后的再总结,不能保证对dlmalloc的整体完全把握,贴出这些只是希望可以提前收到对此有研究的网友的指点,以便在最后对这一系列文章整理而形成的PDF文档中错误能少一些。至于对于现在贴出来的内容中包含的错误给大家造成的不便提前说声抱歉。:) 描述的内容不会包含dlmalloc全部代码,但会将这其中涉及到的一些技巧尽量讲出,我相信对dlmalloc源代码不感兴趣的朋友也可以学到这些独立的技巧而使用在自己的编程实践中。:) 最后,转载请保留本博客地址连接[http://lenky0401.cublog.cn],谢谢。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值