为什么Hash函数 H(k) = k % m中 m 尽量不要为2的幂次 也不是要是2^i -1

为什么Hash函数 H(k) = k % m中 m 尽量不要为2的幂次



下面的截屏来自CLRS的11章 关于哈希函数的讨论



之前我就一直困惑,为什么

            When using the division method, we usually avoid certain values of m. For example, m should not be a power of 2, since ifm = 2^p, then H(k) is just the p lowest-order bits ofk. Unless we know that all low-order p-bit patterns are equally likely, we are better off designing the hash function to depend on all the bits of the key.

-----------------------------------------------------------------------------------------------------------

为嘛就是尽量要避免 k%m中m不要是2的幂次呢?


如果2的i次幂 2^i = 10... .... 0 从1后面的第一个0开始到结束,一共有i个0


如果用k%m进行取余数操作,m = 2^i, 结果就是把k 截断保留低位的i位。这对于hash来说,是很“糟糕的特性”

 

问题的根结在于hash要有很好的特性,就是要避免碰撞,避免碰撞就要分布均匀的插入

直接的截断是很粗鲁的方式,无法保证插入数据能够均匀的分布于hash table中。

-----------------------------------------------------------------------------------------------------------

为嘛就是要避免k %m 中m不要是2幂次-1呢(2^i -1)?

对于不同的字符串S1 = “abcd” S2 = "adcb"

他们的hash值是相同的!但是他们是不同的字符串!他们会冲突!

怎么办呢?考虑字符串中的单个字符的顺序,对各个字符串进行加权,而加权的具体方式就是他们所处于字符串中的位。比方说字符串

S1 求值可以这样 'a'*2^(0) + 'b'* (2^(1)) + 'c' * (2^2) + 'd' * (2^3)

S2 求值可以这样 'a'*2^(0) + 'd'* (2^(1)) + 'c' * (2^2) + 'b' * (2^3) 

两者的字面值就不一样了。这样就完了?可以确保不会冲突? 没完呢。。。

证明很酷帅









       摄于 二零一五年一月五日 晚.

        











  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值