.Net类库中实现的HashTable

来源:汉广 http://www.cnblogs.com/osamede/archive/2008/01/30/1058211.html

摘要:

这个HashTable开放定址法解决冲突,双散列法进行探测。装填因子过高之后使用再散列法扩充涉及到的算法都不是很复杂,即使不使用数学工具,也可以简单的分析下:-)

本文以.net fx's HashTable为例,回顾HashTable的基础理论

  

HashTable是一种能提供快速插入和查询的数据结构,无论其包含有多少Item,查询和插入操作的平均时间总是接近O(1)HashTable理论上并不关心其所包含的item顺序,任何与顺序有关的操作例如:“find_min, find_max”,都不能有效的支持。


Hashing

  

假如我们把一本英汉字典的5000个单词, azyzzyva,存储到一个数组中。这样我们可以通过它们在数组中的序号,以固定的时间快速的访问每一个单词。但是给定一个单词比如:“COOL",如何才能知道它的序号呢?


Converting word to number

 

为了把每个单词同它们在数组中的位置一一对应起来,我们需要把每个单词都转化为一个唯一的一个整数(hash code)。下面是一种简单的算法:

英语只有26个字母,可以用1-26表示,用0表示空格.为了获得一个唯一的数字,我们把单词的每个字母都转化为其对应数字,然后乘以一个合适的权数。比如:

为了把"cats" 转化为数字,我们把它的每一个字符都转化为相应的数字,然后乘以27^n n表示字符的位置),把它们相加:

3*273 + 1*272 + 20*271 + 19*270=60337

这个方法可以将单词都转化为一个唯一整数(hash code)

.net framework中所实现的Hashtable ,虽然对键值的类型没有限制,但要求其键值(key)的类型必须实现GetHashCode()方法,用来获得全局唯一的hash code。事实上由于.net类型库定义的所有类型都直接或间接的继承自Object,所有都具有一个默认的GetHashCode()实现。

但是我们得到的整数(Hash Code)明显不是我们所需要的序号(index)。


Hash Function


  我们从
5000个单词得到范围非常大的一组数字(hash code),每个数字都可能描述数组中的一个序号(index),但是只有很少的数字与序号一一对应。为了可以以一个固定的时间访问每一个单词,我们需要一个方法将这些值域很大的数字映射到数组中的一个位置。

hash function 的作用就是将这些范围很大的数(domain of keys )转换成我们需要的序号(domain of location)。

.net framework采用Division Methed作为其散列算法,使用取模(modulo)操作将Hash code值域转换到合适的范围。即:

arrayIndex = hashcode % arraySize;

其中arrayIndex代表单词在数组中的位置,ArraySize代表数组长度,

 

Collisions

我们希望每一个Hash Code都唯一对应一个Index,然而这个算法并不能保证这一点。比如你想将"melioration"插入到数组,你将这个单词通过上述过程转换成index,然而你发现那个位置已经被"demystify"所占据,这种情况叫做Collisions(冲突)。

.net framework使用open address 的方式解决冲突,例如当进行插入操作时,根据键值生成的index已经被别的item占据时,它将自动搜索index+incr位置,直到找到一个空的位置。其中的incr由以下算法产生。

       incr = (uint)(1 + (((hashcode >> 5) + 1) % ((uint)itemCount - 1)));

.net framework生成incr的这种算法,其结果与当前冲突位置无关,避免了好多问题。事实上它根据键值的hash code 进行了另一次散列,即所谓的Double Hash.


Expand

 

由于HashTable基于数组的,所以它的容量需要提前指定,并且最好在运行过程中不要改变。数组的大小是不能在运行时改变的,所以当HashTable太满时,就需要声明一个新的大数组。

我们记得Hash Function 根据数组的长度计算键值的序号的,所以不可以将旧数组的数据直接复制到新数组,必须对针对每一个键值重新计算其位置,非常的低效。

.net framework实现中HashTable最小的容量为11,当HashTable过满时,会新建立一个容量为当前俩倍的数组,然后将旧数组的值复制到新数组对应的位置。

 
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
以下是使用 VPP 实现 Hash 表的示例代码: ```c #include <vlib/vlib.h> #include <vppinfra/hash.h> typedef struct { u32 key; u32 value; } hash_pair_t; typedef struct { u64 hits; u64 misses; uword *hash; } hash_table_t; typedef struct { hash_table_t ht; } hash_main_t; hash_main_t hash_main; static uword hash_pair_hash (void *item) { hash_pair_t *p = item; return hash_combine (0, p->key); } static int hash_pair_cmp (void *a1, void *a2) { hash_pair_t *p1 = a1; hash_pair_t *p2 = a2; return (p1->key == p2->key); } static void hash_table_init (hash_table_t *ht) { ht->hits = 0; ht->misses = 0; ht->hash = hash_create (0, sizeof (hash_pair_t), sizeof (uword)); } static void hash_table_add (hash_table_t *ht, u32 key, u32 value) { hash_pair_t pair = { .key = key, .value = value, }; hash_set_mem (ht->hash, &pair, hash_pair_hash (&pair)); } static u32 hash_table_find (hash_table_t *ht, u32 key) { hash_pair_t query = { .key = key, }; uword *p = hash_get_mem (ht->hash, &query); if (p) { ht->hits++; hash_pair_t *pair = (hash_pair_t *) p[0]; return pair->value; } else { ht->misses++; return ~0; } } static clib_error_t * hash_init (vlib_main_t *vm) { hash_table_init (&hash_main.ht); return 0; } VLIB_INIT_FUNCTION (hash_init); static clib_error_t * hash_cli (vlib_main_t *vm, unformat_input_t *input, vlib_cli_command_t *cmd) { u32 key, value; if (!unformat (input, "add %u %u", &key, &value)) { return clib_error_return (0, "unknown input `%U'", format_unformat_error, input); } hash_table_add (&hash_main.ht, key, value); return 0; } VLIB_CLI_COMMAND (hash_cli_command, static) = { .path = "hash-table", .short_help = "hash table commands", .function = hash_cli, }; static clib_error_t * hash_test (vlib_main_t *vm) { u32 key, value, result; key = 42; value = 1337; hash_table_add (&hash_main.ht, key, value); result = hash_table_find (&hash_main.ht, key); if (result == value) { vlib_cli_output (vm, "Test 1 passed\n"); } else { vlib_cli_output (vm, "Test 1 failed: expected %u, got %u\n", value, result); } key = 43; result = hash_table_find (&hash_main.ht, key); if (result == ~0) { vlib_cli_output (vm, "Test 2 passed\n"); } else { vlib_cli_output (vm, "Test 2 failed: expected ~0, got %u\n", result); } return 0; } VLIB_EARLY_CONFIG_FUNCTION (hash_test); ``` 在此示例代码,我们定义了一个`hash_pair_t`结构体,它包含一个键和一个值。我们还定义了一个`hash_table_t`结构体,它包含命次数、未命次数和一个哈希表。我们使用`hash_create()`函数初始化哈希表。`hash_pair_hash()`函数计算哈希值,`hash_pair_cmp()`函数比较两个键是否相等。`hash_table_add()`函数将一个键值对添加到哈希表,`hash_table_find()`函数在哈希表查找一个键对应的值。`hash_init()`函数在加载模块时初始化哈希表。`hash_cli()`函数处理 CLI 命令。`hash_test()`函数测试哈希表的功能。 请注意,此示例代码仅用于演示 VPP 哈希表的实现,实际使用可能需要更改代码以符合您的需求。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值