STL源码剖析学习笔记(三)–关联式容器
1. 标准的关联式容器分为set(集合)和map(映射)两大类,底层机制均为RB-tree;
2. STL还提供了hash table(散列表),和以此为底层的hash_set,hash_map等;
关联式容器
1. 所谓关联式容器,观念上类似于关联式数据库:每笔数据都有一个key - value。当元素被插入到关联式容器时,容器内部结构便按照特定规则将该元素放置于适当位置。关联式容器没有所谓头尾,所以没有push_back(), end()等行为;
2. 一般而言,关联式容器内部结构是一个平衡二叉树,以便获得良好的搜查效率。平衡二叉树有许多类型,比如AVL-tree,RB-tree,其中最广泛用于STL的是RB-tree;
二叉搜索树(binary search tree)
1. 可提供对数时间的元素插入和访问,即logN;
2. 任何节点的值一定大于其左子树任意节点的值,小于其右子树任意节点的值;因此,从根节点一直往左走到最后,可得最小值,往右走的最后,可得最大值;根据性质查找比较简单;
3. 插入:从根节点开始,遇到键值较大就向左,较小就向右,直到尾端为插入点;
4. 删除:删除一个节点,如果只有一个子节点,直接将其放到删除节点的位置;如果两个子节点,以右子树的最小节点取代删除节点;
5. 二叉搜索树可能会失去平衡,退化成链表,导致效率低下;
平衡二叉搜索树
在二叉搜索树的基础上加上平衡条件,防止任何一个节点深度过大;
AVL树(Adelson-Velskii-Landies tree)
1. AVL树是一个加上了额外平衡条件的二叉搜索树,为了确保整棵树的深度为O(logN);
2. 插入:假设最深节点为X,最多有两个子节点,而所谓平衡被破坏意味着X的左右子树高度相差2,所以有四种情况:
插入点位于X的左子树的左子树------左左
插入点位于X的左子树的右子树------左右
插入点位于X的右子树的左子树------右左
插入点位于X的右子树的右子树------右右
3. 情况1和4彼此对称,称为外侧插入,可以采用单旋转操作解决;
4. 情况2和3彼此对称,称为内侧插入,采用双旋转操作解决;
RB-tree(红黑树)
红黑树同样是一颗二叉搜索树,同样用了单旋转以及双旋转,并且还要满足以下几种性质:
1. 每个节点不是红色就是黑色;
2. 根节点为黑色;
3. 如果节点为红色,子节点必定为黑色;
4. 任意节点到NULL的任何路径,所含黑色节点数相同;
根据规则4,新增节点必须为红色;根据3,新增节点的父节点必须为黑色;
当新节点根据二叉搜索树的规则到达插入点,却不符合上述条件时,需要调整颜色并转换树形;
set
set中的所有元素会根据元素值自动被排序,key就是value;
set无法通过迭代器修改其元素值;
新增或者删除元素时,迭代器不失效;
map
1. map的元素都是pair类型的,包含key和value
2. map的特性是:所有元素根据key被排序,所以不允许有两个相同的键值;
3. 可以通过迭代器改变value值,不能改变key值;
multiset
1. 跟set的唯一区别是允许key重复;
multimap
1. 跟map的唯一区别是允许key重复;
hashtable
1. 在插入、删除、查找等操作上都有常数平均时间的表现;
2. 使用某种映射函数,将某个元素影射为大小可接受的索引,这样的函数称为散列函数(hash fuction);
3. 使用hash function会有种问题,将不同的元素映射到相同的索引(即hash碰撞);解决办法有:线性探测、二次探测、开链法等;
4. 负载系数 = 元素个数 / 表格大小;除非使用开链法,否则永远在 0 - 1 之间;
5. 线性探测:
hash计算出来索引时,该位置不可用,就往下一一查找,直到找到一个可用空间;
删除时必须采用惰性删除,即先标记,等待重新操作(rehash)时再进行删除操作,因为hashtable中的元素不仅表述它自己,也关系到其他元素的排列;
线性探测法实际效率下降严重,跟常数时间相差太远;
6. 二次探测:
如果hash计算出来实际位置为H,但是H已被占用,就依次尝试H+1^2,H+2^2,H+3^2......H+i^2,
而不是像线性探测那样依次去尝试;
如果我们假设表格大小为质数,并且永远保持负载系数在0.5之下(超过就重新整理表格),那么
可以确定每插入一个新元素所需要的探测次数不多于2;
关于存储空间的成长,首先必须找出下一个两倍大左右的质数,然后重新建表,重新对每个元素做hash找到他在新表的位置,然后再插入到新表;
7. 开链法:
每个表格节点维护一个list,每个hash到此处的元素插入到链表里,如果链表够小,查询依然很快;
SGI STL用的是这种做法;
8. 开链法hashtable的桶子buckets与节点nodes:
表格内的每个单元,存储的是一桶元素,即一个链表;