数据结构—Dictionary

Dictionary< K,Y > _testDic = new Dictionary<K, Y>();

Dictionary是一种键值对的形式存放数据,即 key值 、value 值 一 一映射的。key的类型没有限制,可以是整数、字符串甚至是实例对象。该类最大的优点就是它查找元素的时间复杂度接近O(1),实际项目中常被用来做一些数据的本地缓存,提升整体效率。

Dictionary的实现原理,有两个关键的算法,Hash算法 和 解决Hash 碰撞冲突 的算法。key value的映射关系用的就是Hash函数来建立的。

Hash算法

Hash算法是一种数字摘要算法,它能将不定长度的二进制数据集给映射到一个较短的二进制长度数据集,常见的MD5算法就是一种Hash算法,通过MD5算法可对任何数据生成数字摘要。而实现了Hash算法的函数我们叫她Hash函数。Hash函数有以下几点特征。

  1. 相同的数据进行Hash运算,得到的结果一定相同。HashFunc(key1) == HashFunc(key1)
  2. 不同的数据进行Hash运算,其结果也可能会相同,(Hash会产生碰撞)。key1 != key2 => HashFunc(key1) == HashFunc(key2).
  3. Hash运算时不可逆的,不能由key获取原始的数据。key1 => hashCode但是hashCode =\=> key1

下图就是Hash函数的一个简单说明,任意长度的数据通过HashFunc映射到一个较短的数据集中。 

关于Hash碰撞下图很清晰的就解释了,可从图中得知Sandra Dee 和 John Smith通过hash运算后都落到了02的位置,产生了碰撞和冲突。

 常见的构造Hash函数的算法有以下几种。

1. 直接寻址法:取keyword或keyword的某个线性函数值为散列地址。即H(key)=key或H(key) = a•key + b,当中a和b为常数(这样的散列函数叫做自身函数)

2. 数字分析法:分析一组数据,比方一组员工的出生年月日,这时我们发现出生年月日的前几位数字大体同样,这种话,出现冲突的几率就会非常大,可是我们发现年月日的后几位表示月份和详细日期的数字区别非常大,假设用后面的数字来构成散列地址,则冲突的几率会明显减少。因此数字分析法就是找出数字的规律,尽可能利用这些数据来构造冲突几率较低的散列(Hash)地址。

3. 平方取中法:取keyword平方后的中间几位作为散列地址。

4. 折叠法:将keyword切割成位数同样的几部分,最后一部分位数能够不同,然后取这几部分的叠加和(去除进位)作为散列地址。

5. 随机数法:选择一随机函数,取keyword的随机值作为散列地址,通经常使用于keyword长度不同的场合。

6. 除留余数法:取keyword被某个不大于散列表表长m的数p除后所得的余数为散列地址。即 H(key) = key MOD p, p<=m。不仅能够对keyword直接取模,也可在折叠、平方取中等运算之后取模。对p的选择非常重要,一般取素数或m,若p选的不好,容易产生碰撞.

 Hash桶算法

说到Hash算法大家就会想到Hash表,一个Key通过Hash函数运算后可快速的得到hashCode,通过hashCode的映射可直接Get到Value,但是hashCode一般取值都是非常大的,经常是2^32以上,不可能对每个hashCode都指定一个映射。

因为这样的一个问题,所以人们就将生成的HashCode以分段的形式来映射,把每一段称之为一个Bucket(桶),一般常见的Hash桶就是直接对结果取余。

假设将生成的hashCode可能取值有2^32个,然后将其切分成一段一段,使用8个桶来映射,那么就可以通过bucketIndex = HashFunc(key1) % 8这样一个算法来确定这个hashCode映射到具体的哪个桶中。

大家可以看出来,通过hash桶这种形式来进行映射,所以会加剧hash的冲突。 

解决冲突算法

对于一个hash算法,不可避免的会产生冲突,那么产生冲突以后如何处理,是一个很关键的地方,目前常见的冲突解决算法有拉链法(Dictionary实现采用的)、开放定址法、再Hash法、公共溢出分区法,本文只介绍拉链法与再Hash法。

1. 拉链法:这种方法的思路是将产生冲突的元素建立一个单链表,并将头指针地址存储至Hash表对应桶的位置。这样定位到Hash表桶的位置后可通过遍历单链表的形式来查找元素。

2. 再Hash法:顾名思义就是将key使用其它的Hash函数再次Hash,直到找到不冲突的位置为止。

 对于拉链法有一张图来描述,通过在冲突位置建立单链表,来解决冲突。

Hash函数设计

 正整数

浮点型以及字符型 

C#中的GetHashCode()

 从上图可以看到我们可以通过C#内置的GetHashCode()来得到一个32位的int整数。但是我们需要数组的索引而不是一个整数。所以会对整数进行取余。

private int Hash(Key key)

{

        return (key.GetHashCode() & 0x7fffffff)%M;//考虑负数的情况与0x7ffffffff按位与
}

基于拉链法的哈希表 

使用单向链表来存储对应的索引,初始化时每个键值都指向一条链表,将冲突的元素都存在链表中。

Hash初始化

class HashST1<Key>
    {

        private LinkedList1<Key>[] hashtable;  //每个位置都指向一条链表,将冲突的元素都存在链表中。
        private int N;
        private int M;

        public HashST1(int M)
        {
            this.M = M;
            N = 0;
            hashtable = new LinkedList1<Key>[M];
            for (int i = 0; i < M; i++)
                hashtable[i] = new LinkedList1<Key>();
        }

        public HashST1() : this(97) { }//当不传入参数时,默认创建97条链表

Hash(Key key)方法,计算出键值索引的位置

 private int Hash(Key key)
        {
            return (key.GetHashCode() & 0x7fffffff) % M;
        }

 Add(Key key)方法,向Hash表添加一个键

public void Add(Key key)

{

        LinkedList1<key> list = hashrable[Hash(key)];

        if(list.Contains(key)) return;

        else

        {

                list.AddFirst(key);

                N++;

         }

通过Hash方法得到了键的索引值,将对应索引值的链表数组中的一条链表赋予list。list再查看是否包含key值。这里需要再次声明一下。Key是键值,Hash(key)是键值对应链表的值。例如:key=500,Hash(key)=5。那么Add(500)。

public void Add(Key 500)

{

        LinkedList1<500> list = hashrable[Hash(500)];

        LinkedList1<500> list = hashrable[5];list位hashable第五条链表

        if(list.Contains(500)) return;判断第五条链表中是否含有键值

        else

        {

                list.AddFirst(500);链表首节点添加时间复杂度O(1)

                N++;

         }

 Remove(Key key)方法 删除键值

同Add方法大同小异

public void Remove(Key key)

{

        LinkedList1<key> list = hashrable[Hash(key)];

        if(list.Contains(key)) 

        {

                list.Remove(key);//需要遍历,时间复杂度为线性

                N--;

         }

Contains(Key key) 查询键值方法

public bool Contains(Key key)

{
        LinkedList1<Key> list  = hashtable[Hash(key)];

        return list.Contains(key);

}

Dictionary实现

1. Entry结构体

首先我们引入Entry这样一个结构体,它的定义如下代码所示。这是Dictionary种存放数据的最小单位,调用Add(Key,Value)方法添加的元素都会被封装在这样的一个结构体中。

private struct Entry {
    public int hashCode;    // 除符号位以外的31位hashCode值, 如果该Entry没有被使用,那么为-1
    public int next;        // 下一个元素的下标索引,如果没有下一个就为-1
    public TKey key;        // 存放元素的键
    public TValue value;    // 存放元素的值
}

2、其它关键私有变量

private int[] buckets;		// Hash桶
private Entry[] entries;	// Entry数组,存放元素
private int count;			// 当前entries的index位置
private int version;		// 当前版本,防止迭代过程中集合被更改
private int freeList;		// 被删除Entry在entries中的下标index,这个位置是空闲的
private int freeCount;		// 有多少个被删除的Entry,有多少个空闲的位置
private IEqualityComparer<TKey> comparer;	// 比较器
private KeyCollection keys;		// 存放Key的集合
private ValueCollection values;		// 存放Value的集合

Dictionary - Add操作

 然后我们假设需要执行一个Add操作,dictionary.Add("a","b"),其中key = "a",value = "b"

  1. 根据key的值,计算出它的hashCode。我们假设"a"的hash值为6(GetHashCode("a") = 6)。

  2. 通过对hashCode取余运算,计算出该hashCode落在哪一个buckets桶中。现在桶的长度(buckets.Length)为4,那么就是6 % 4最后落在index为2的桶中,也就是buckets[2]

  3. 避开一种其它情况不谈,接下来它会将hashCode、key、value等信息存入entries[count]中,因为count位置是空闲的;继续count++指向下一个空闲位置。上图中第一个位置,index=0就是空闲的,所以就存放在entries[0]的位置。

  4. Entry的下标entryIndex赋值给buckets中对应下标的bucket。步骤3中是存放在entries[0]的位置,所以buckets[2]=0

  5. 最后version++,集合发生了变化,所以版本需要+1。只有增加、替换和删除元素才会更新版本

完成上面Add操作后,数据结构更新成了下图这样的形式。

这样是理想情况下的操作,一个bucket中只有一个hashCode没有碰撞的产生,但是实际上是会经常产生碰撞;那么Dictionary类中又是如何解决碰撞的呢。

我们继续执行一个Add操作,dictionary.Add("c","d"),假设GetHashCode(“c”)=6,最后6 % 4 = 2。最后桶的index也是2,按照之前的步骤1~3是没有问题的,执行完后数据结构如下图所示。

 如果继续执行步骤4那么buckets[2] = 1,然后原来的buckets[2]=>entries[0]的关系就会丢失,这是我们不愿意看到的。现在Entry中的next就发挥大作用了。

如果对应的buckets[index]有其它元素已经存在,那么会执行以下两条语句,让新的entry.next指向之前的元素,让buckets[index]指向现在的新的元素,就构成了一个单链表。

entries[index].next = buckets[targetBucket];//entries[1].next=bucket[2]                                            
...                                         //entries[1].next = 0;下标指向0
buckets[targetBucket] = index;//bucket[2] = 1;  

 实际上步骤4也就是做一个这样的操作,并不会去判断是不是有其它元素,因为buckets中桶初始值就是-1,不会造成问题。

经过上面的步骤以后,数据结构就更新成了下图这个样子。

Dictionary - Find操作

 为了方便演示如何查找,我们继续Add一个元素dictionary.Add("e","f")GetHashCode(“e”) = 7; 7% buckets.Length=3,数据结构如下所示。

 假设我们现在执行这样一条语句dictionary.GetValueOrDefault("a"),会执行以下步骤.

  1. 获取key的hashCode,计算出所在的桶位置。我们之前提到,"a"的hashCode=6,所以最后计算出来targetBucket=2
  2. 通过buckets[2]=1找到entries[1],比较key的值是否相等,相等就返回entryIndex,不想等就继续entries[next]查找,直到找到key相等元素或者next == -1的时候。这里我们找到了key == "a"的元素,返回entryIndex=0
  3. 如果entryIndex >= 0那么返回对应的entries[entryIndex]元素,否则返回default(TValue)。这里我们直接返回entries[0].value

整个查找的过程如下图所示.

 将查找的代码摘录下来,如下所示。

// 寻找Entry元素的位置
private int FindEntry(TKey key) {
    if( key == null) {
        ThrowHelper.ThrowArgumentNullException(ExceptionArgument.key);
    }

    if (buckets != null) {
        int hashCode = comparer.GetHashCode(key) & 0x7FFFFFFF; // 获取HashCode,忽略符号位
        // int i = buckets[hashCode % buckets.Length] 找到对应桶,然后获取entry在entries中位置
        // i >= 0; i = entries[i].next 遍历单链表
        for (int i = buckets[hashCode % buckets.Length]; i >= 0; i = entries[i].next) {
            // 找到就返回了
            if (entries[i].hashCode == hashCode && comparer.Equals(entries[i].key, key)) return i;
        }
    }
    return -1;
}
...
internal TValue GetValueOrDefault(TKey key) {
    int i = FindEntry(key);
    // 大于等于0代表找到了元素位置,直接返回value
    // 否则返回该类型的默认值
    if (i >= 0) {
        return entries[i].value;
    }
    return default(TValue);
}

Dictionary - Remove操作

前面已经向大家介绍了增加、查找,接下来向大家介绍Dictionary如何执行删除操作。我们沿用之前的Dictionary数据结构。

删除前面步骤和查找类似,也是需要找到元素的位置,然后再进行删除的操作。

我们现在执行这样一条语句dictionary.Remove("a"),hashFunc运算结果和上文中一致。步骤大部分与查找类似,我们直接看摘录的代码,如下所示。

Remove("a")

buckert !=null  //true

int hashCode = comparer.GetHashCode(key) & 0x7FFFFFFF;

int bucket = hashCode % buckets.Length;//在这里假设bucket=2

int last = -1;设置last确定是否为单链表最后一个元素,需要注意的是last在比较时,为当前节点。而不是指向最末尾的节点。

for(int i = buckets[2];i>=0;last = 1,i=0)     //第一次for循环 last = 1 i = 0;

for(int i = buckets[2];i>=0;last = 0,i=-1)

{

        entries[1].next = entries[0].next;   让entries[1].next指向-1;

}

public bool Remove(TKey key) {
    if(key == null) {
        ThrowHelper.ThrowArgumentNullException(ExceptionArgument.key);
    }

    if (buckets != null) {
        // 1. 通过key获取hashCode
        int hashCode = comparer.GetHashCode(key) & 0x7FFFFFFF;
        // 2. 取余获取bucket位置
        int bucket = hashCode % buckets.Length;
        // last用于确定是否当前bucket的单链表中最后一个元素
        int last = -1;
        // 3. 遍历bucket对应的单链表
        for (int i = buckets[bucket]; i >= 0; last = i, i = entries[i].next) {
            if (entries[i].hashCode == hashCode && comparer.Equals(entries[i].key, key)) {
                // 4. 找到元素后,如果last< 0,代表当前是bucket中最后一个元素,那么直接让bucket内下标赋值为 entries[i].next即可
                if (last < 0) {
                    buckets[bucket] = entries[i].next;
                }
                else {
                    // 4.1 last不小于0,代表当前元素处于bucket单链表中间位置,需要将该元素的头结点和尾节点相连起来,防止链表中断
                    entries[last].next = entries[i].next;
                }
                // 5. 将Entry结构体内数据初始化
                entries[i].hashCode = -1;
                // 5.1 建立freeList单链表
                entries[i].next = freeList;
                entries[i].key = default(TKey);
                entries[i].value = default(TValue);
                // *6. 关键的代码,freeList等于当前的entry位置,下一次Add元素会优先Add到该位置
                freeList = i;
                freeCount++;
                // 7. 版本号+1
                version++;
                return true;
            }
        }
    }
    return false;
}

执行完上面代码后,数据结构就更新成了下图所示。需要注意varsion、freeList、freeCount的值都被更新了。

Dictionary - Resize操作(扩容)

有细心的小伙伴可能看过了Add操作以后就想问了,buckets、entries不就是两个数组么,那万一数组放满了怎么办?接下来就是我所要介绍的Resize(扩容)这样一种操作,对我们的buckets、entries进行扩容。

6.1 扩容操作的触发条件

首先我们需要知道在什么情况下,会发生扩容操作;第一种情况自然就是数组已经满了,没有办法继续存放新的元素。如下图所示的情况。1

 从上文中大家都知道,Hash运算会不可避免的产生冲突,Dictionary中使用拉链法来解决冲突的问题,但是大家看下图中的这种情况。

 

所有的元素都刚好落在buckets[3]上面,结果就是导致了时间复杂度O(n),查找性能会下降;所以第二种,Dictionary中发生的碰撞次数太多,会严重影响性能,也会触发扩容操作。

目前.Net Framwork 4.7中设置的碰撞次数阈值为100.

public const int HashCollisionThreshold = 100;

6.2 扩容操作如何进行

为了给大家演示的清楚,模拟了以下这种数据结构,大小为2的Dictionary,假设碰撞的阈值为2;现在触发Hash碰撞扩容。

 开始扩容操作。

1.申请两倍于现在大小的buckets、entries
2.将现有的元素拷贝到新的entries

完成上面两步操作后,新数据结构如下所示。

 3、如果是Hash碰撞扩容,使用新HashCode函数重新计算Hash值

上文提到了,这是发生了Hash碰撞扩容,所以需要使用新的Hash函数计算Hash值。新的Hash函数并不一定能解决碰撞的问题,有可能会更糟,像下图中一样的还是会落在同一个bucket上。

4、对entries每个元素bucket = newEntries[i].hashCode % newSize确定新buckets位置

**5、重建hash链,newEntries[i].next=buckets[bucket]; buckets[bucket]=i; **

因为buckets也扩充为两倍大小了,所以需要重新确定hashCode在哪个bucket中;最后重新建立hash单链表.

 

这就完成了扩容的操作,如果是达到Hash碰撞阈值触发的扩容可能扩容后结果会更差。

在JDK中,HashMap如果碰撞的次数太多了,那么会将单链表转换为红黑树提升查找性能。目前.Net Framwork中还没有这样的优化,.Net Core中已经有了类似的优化,以后有时间在分享.Net Core的一些集合实现。

每次扩容操作都需要遍历所有元素,会影响性能。所以创建Dictionary实例时最好设置一个预估的初始大小。

在JDK中,HashMap如果碰撞的次数太多了,那么会将单链表转换为红黑树提升查找性能。目前.Net Framwork中还没有这样的优化,.Net Core中已经有了类似的优化,以后有时间在分享.Net Core的一些集合实现。

每次扩容操作都需要遍历所有元素,会影响性能。所以创建Dictionary实例时最好设置一个预估的初始大小。

private void Resize(int newSize, bool forceNewHashCodes) {
    Contract.Assert(newSize >= entries.Length);
    // 1. 申请新的Buckets和entries
    int[] newBuckets = new int[newSize];
    for (int i = 0; i < newBuckets.Length; i++) newBuckets[i] = -1;
    Entry[] newEntries = new Entry[newSize];
    // 2. 将entries内元素拷贝到新的entries总
    Array.Copy(entries, 0, newEntries, 0, count);
    // 3. 如果是Hash碰撞扩容,使用新HashCode函数重新计算Hash值
    if(forceNewHashCodes) {
        for (int i = 0; i < count; i++) {
            if(newEntries[i].hashCode != -1) {
                newEntries[i].hashCode = (comparer.GetHashCode(newEntries[i].key) & 0x7FFFFFFF);
            }
        }
    }
    // 4. 确定新的bucket位置
    // 5. 重建Hahs单链表
    for (int i = 0; i < count; i++) {
        if (newEntries[i].hashCode >= 0) {
            int bucket = newEntries[i].hashCode % newSize;
            newEntries[i].next = newBuckets[bucket];
            newBuckets[bucket] = i;
        }
    }
    buckets = newBuckets;
    entries = newEntries;
}

Dictionary - 再谈Add操作

在我们之前的Add操作步骤中,提到了这样一段话,这里提到会有一种其它的情况,那就是有元素被删除的情况。

3.避开一种其它情况不谈,接下来它会将hashCode、key、value等信息存入entries[count]中,因为count位置是空闲的;继续count++指向下一个空闲位置。上图中第一个位置,index=0就是空闲的,所以就存放在entries[0]的位置。

因为count是通过自增的方式来指向entries[]下一个空闲的entry,如果有元素被删除了,那么在count之前的位置就会出现一个空闲的entry;如果不处理,会有很多空间被浪费。

这就是为什么Remove操作会记录freeList、freeCount,就是为了将删除的空间利用起来。实际上Add操作会优先使用freeList的空闲entry位置,摘录代码如下。

private void Insert(TKey key, TValue value, bool add){
    
    if( key == null ) {
        ThrowHelper.ThrowArgumentNullException(ExceptionArgument.key);
    }

    if (buckets == null) Initialize(0);
    // 通过key获取hashCode
    int hashCode = comparer.GetHashCode(key) & 0x7FFFFFFF;
    // 计算出目标bucket下标
    int targetBucket = hashCode % buckets.Length;
	// 碰撞次数
    int collisionCount = 0;
    for (int i = buckets[targetBucket]; i >= 0; i = entries[i].next) {
        if (entries[i].hashCode == hashCode && comparer.Equals(entries[i].key, key)) {
            // 如果是增加操作,遍历到了相同的元素,那么抛出异常
            if (add) {      
				ThrowHelper.ThrowArgumentException(ExceptionResource.Argument_AddingDuplicate);
            }
            // 如果不是增加操作,那可能是索引赋值操作 dictionary["foo"] = "foo"
            // 那么赋值后版本++,退出
            entries[i].value = value;
            version++;
            return;
        }
        // 每遍历一个元素,都是一次碰撞
        collisionCount++;
    }
    int index;
    // 如果有被删除的元素,那么将元素放到被删除元素的空闲位置
    if (freeCount > 0) {
        index = freeList;
        freeList = entries[index].next;
        freeCount--;
    }
    else {
        // 如果当前entries已满,那么触发扩容
        if (count == entries.Length)
        {
            Resize();
            targetBucket = hashCode % buckets.Length;
        }
        index = count;
        count++;
    }

    // 给entry赋值
    entries[index].hashCode = hashCode;
    entries[index].next = buckets[targetBucket];
    entries[index].key = key;
    entries[index].value = value;
    buckets[targetBucket] = index;
    // 版本号++
    version++;

    // 如果碰撞次数大于设置的最大碰撞次数,那么触发Hash碰撞扩容
    if(collisionCount > HashHelpers.HashCollisionThreshold && HashHelpers.IsWellKnownEqualityComparer(comparer)) 
    {
        comparer = (IEqualityComparer<TKey>) HashHelpers.GetRandomizedEqualityComparer(comparer);
        Resize(entries.Length, true);
    }
}

Collection版本控制

在上文中一直提到了version这个变量,在每一次新增、修改和删除操作时,都会使version++;那么这个version存在的意义是什么呢?

首先我们来看一段代码,这段代码中首先实例化了一个Dictionary实例,然后通过foreach遍历该实例,在foreach代码块中使用dic.Remove(kv.Key)删除元素。

 

结果就是抛出了System.InvalidOperationException:"Collection was modified..."这样的异常,迭代过程中不允许集合出现变化。如果在Java中遍历直接删除元素,会出现诡异的问题,所以.Net中就使用了version来实现版本控制。

那么如何在迭代过程中实现版本控制的呢?我们看一看源码就很清楚的知道。

在迭代器初始化时,就会记录dictionary.version版本号,之后每一次迭代过程都会检查版本号是否一致,如果不一致将抛出异常。

这样就避免了在迭代过程中修改了集合,造成很多诡异的问题。

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值