Murmurhash介绍与实现

    MurmurHash 是一种非 加密哈希函数,适用于一般的哈希检索操作。 由Austin Appleby在2008年发明, 并出现了多个变种,都已经发布到了 公有领域(public domain)。与其它流行的哈希函数相比,对于规律性较强的key,MurmurHash的随机分布特征表现更良好。---摘自wiki

    Redis在实现字典时用到了两种不同的哈希算法,MurmurHash便是其中一种(另一种是djb),在Redis中应用十分广泛,包括数据库、集群、哈希键、阻塞操作等功能都用到了这个算法。发明算法的作者被邀到google工作,该算法最新版本是MurmurHash3,基于MurmurHash2改进了一些小瑕疵,使得速度更快,实现了32位(低延时)、128位HashKey,尤其对大块的数据,具有较高的平衡性与低碰撞率。

    MurmurHash2的实现,可以放到自己的工程中使用。

   

unsigned int murMurHash(const void *key, int len)
    {
    	const unsigned int m = 0x5bd1e995;
    	const int r = 24;
        const int seed = 97;
    	unsigned int h = seed ^ len;
    	// Mix 4 bytes at a time into the hash
    	const unsigned char *data = (const unsigned char *)key;
    	while(len >= 4)
    	{
    		unsigned int k = *(unsigned int *)data;
    		k *= m; 
    		k ^= k >> r; 
    		k *= m; 
    		h *= m; 
    		h ^= k;
    		data += 4;
    		len -= 4;
    	}
    	// Handle the last few bytes of the input array
    	switch(len)
    	{
    	    case 3: h ^= data[2] << 16;
    	    case 2: h ^= data[1] << 8;
    	    case 1: h ^= data[0];
            h *= m;
    	};
    	// Do a few final mixes of the hash to ensure the last few
    	// bytes are well-incorporated.
    	h ^= h >> 13;
    	h *= m;
    	h ^= h >> 15;
    	return h;
    }
    

    MurmurHash3的实现与测试可以见这里google code

    以下是来自google的测试,对8byte对齐的256k数据块进行hashing,硬件平台Intel Core 2 Quad Q9650,3.0ghz,单核运行。

    FNV_x86_32 - 554 mb/sec
    FNV_x64_32 - 715 mb/sec
    SuperFastHash_x86_32 - 1224 mb/sec (1)
    SuperFastHash_x64_32 - 1311 mb/sec
    Lookup3_x86_32 - 1234 mb/sec
    Lookup3_x64_32 - 1265 mb/sec


    MurmurHash2_x86_32 - 2577 mb/sec
    MurmurHash2_x86_64 - 3352 mb/sec (2)
    MurmurHash2_x64_64 - 2857 mb/sec

    MurmurHash3_x86_32 - 3105 mb/sec
    MurmurHash3_x86_128 - 2684 mb/sec
    MurmurHash3_x64_128 - 5058 mb/sec (3)

  • 34
    点赞
  • 38
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
MurmurHash3有多个版本和实现方法,这里简单介绍一种较为简单的实现方法。 伪代码如下: ``` function MurmurHash3(key, seed): c1 = 0x87c37b91 c2 = 0x4cf5ad43 r1 = 15 r2 = 13 m = 5 n = 0xe6546b64 hash = seed for each 4-byte chunk of key: k = chunk k *= c1 k = (k << r1) | (k >> (32 - r1)) k *= c2 hash ^= k hash = (hash << r2) | (hash >> (32 - r2)) hash = hash * m + n remaining = last 4-byte chunk of key (padded with zeros if necessary) k = remaining k *= c1 k = (k << r1) | (k >> (32 - r1)) k *= c2 hash ^= k hash ^= length of key hash ^= (hash >> 16) hash *= 0x85ebca6b hash ^= (hash >> 13) hash *= 0xc2b2ae35 hash ^= (hash >> 16) return hash ``` 其中,`key`为输入数据,`seed`为哈希种子,`c1`和`c2`为常数,`r1`和`r2`为位移量,`m`和`n`为混合常数。 具体的实现方法包括: 1. 初始化哈希值为种子值。 2. 对输入数据进行分块处理,每块大小为4字节。对每个块进行以下处理: a. 乘以常数`c1`。 b. 按位左移`r1`位或右移`32-r1`位。 c. 乘以常数`c2`。 d. 对哈希值进行按位异或操作。 e. 按位左移`r2`位或右移`32-r2`位。 f. 乘以常数`m`,加上常数`n`,累加到哈希值中。 3. 对最后不足4字节的块进行处理,方法同上。 4. 对哈希值进行一些后处理,包括按位异或、按位左移、按位右移、乘以常数等操作,以保证最终的哈希值具有高质量和低冲突率。 需要注意的是,MurmurHash3的实现方法和参数可以根据具体的应用场景进行调整,以达到更好的性能和质量。
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值