哈希表心得

出自陈皓博客《哈希表心得》,
链接:http://blog.csdn.net/haoel/article/details/2863

我们知道,哈希表是一个固定大小的数组,数组的每个元素是一个链表(单向或双向)的头指针。如果 K e y Key Key一样,则在一起,如果 K e y Key Key不一样,则不在一起。哈希表的查询是飞快的。因为它不需要从头搜索,它利用 K e y Key Key的“哈希算法”直接定位,查找非常快,各种数据库中的数据结构基本都是它。但带来的问题是,哈希表的尺寸、哈希算法。

哈希表的数组是定长的,如果太大,则浪费,如果太小,体现不出效率。合适的数组大小是哈希表的性能的关键。哈希表的尺寸最好是一个质数,最小的质数尺寸是 17 17 17

当然,根据不同的数据量,会有不同的哈希表的大小。对于数据量时多时少的应用,最好的设计是使用动态可变尺寸的哈希表,那么如果你发现哈希表尺寸太小了,比如其中的元素是哈希表尺寸的 2 2 2倍时,我们就需要扩大哈希表尺寸,一般是扩大一倍。下面的数库是哈希表变化尺寸时尺寸大小的一个列表。


static int prime_array[] = {
    17,             /* 0 */
    37,             /* 1 */
    79,             /* 2 */
    163,            /* 3 */
    331,            /* 4 */
    673,            /* 5 */
    1361,           /* 6 */
    2729,           /* 7 */
    5471,           /* 8 */
    10949,          /* 9 */
    21911,          /* 10 */
    43853,          /* 11 */
    87719,          /* 12 */
    175447,         /* 13 */
    350899,         /* 14 */
    701819,         /* 15 */
    1403641,        /* 16 */
    2807303,        /* 17 */
    5614657,        /* 18 */
    11229331,       /* 19 */
    22458671,       /* 20 */
    44917381,       /* 21 */
    89834777,       /* 22 */
    179669557,      /* 23 */
    359339171,      /* 24 */
    718678369,      /* 25 */
    1437356741,     /* 26 */
    2147483647      /* 27 (largest signed int prime) */
};               

#define PRIME_ARRAY_SIZE  (28)

要使用哈希表,就一定要用一个哈希算法,来确定 K E Y KEY KEY值,这似乎是个很难的事,下面是一个哈希算法:

typedef struct _hTab{
    hLinks* link;    /* 一个链表 */
    int  num;     /* 成员个数 */
    int  size;    /* 表的尺寸 */
} hTab;

static unsigned int
getHashIndex(hTab *tabPtr, const char *key)
{
    unsigned int ha = 0;
   
    while (*key)
        ha = (ha * 128 + *key++) % tabPtr->size;

    return ha;

}

(其中 k e y key key是一个字符串, h T a b hTab hTab就是一个哈希表结构, t a b P t r − > s i z e tabPtr->size tabPtr>size是哈希表数组的大小)


对比 S T L STL STL哈希表变化尺寸:

static const int __stl_num_primes = 28;
static const unsigned long __stl_prime_list[__stl_num_primes] = 
{
	53,		97,		193,	389,	769,
	1543,	3079,	6151,	12289,	24593,
	49157,	98317,	196613,	393241,	786433,
	1572869,	3145739,	6291469,	12582917,	25165843,
	50331653,	100663319,	201326611,	402653189,	805306457,
	16110612741,	3221225473ul,	4294967291ul
};

对比 S T L STL STL哈希算法:

template <class Key> struct hash{}
inline size_t __stl_hash_string(const char* s)
{
	unsigned long h  = 0;
	for (; *s; ++s)
		h = 5*h + *s;
	return size_t(h);
}

template <>
__STL_TEMPLATE_NULL struct hash<char*>
{
	size_t operator()(const char *s)  const { return __stl_hash_string(s); }
};

我们可以发现大神博客的哈希表实现方式与 S T L STL STL并无二异,只是更换了 h a s h hash hash表尺寸大小的取值及哈希算法;由于没有确切的实际数据对其进行检验,无法得出两者取值哪个更具效率,不过最主要的是理解为什么设计多个hash表尺寸以及理解 h a s h hash hash算法,理解了这两点才是设计实现一个 h a s h hash hash表最重要的内容。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值