数据结构与算法之美（九）哈希算法

最新推荐文章于 2022-04-08 17:59:21 发布

雪糕cool

最新推荐文章于 2022-04-08 17:59:21 发布

阅读量265

点赞数

分类专栏：数据结构与算法之美文章标签：算法数据结构动态规划

本文链接：https://blog.csdn.net/weixin_41826501/article/details/123341174

版权

15 篇文章 4 订阅

订阅专栏

介绍

哈希算法：将任意长度的二进制值串映射为**固定长度的二进制值串（哈希值）**的映射规则

要求：

常用于加密的哈希算法：

针对字典攻击（用户信息被脱库后，黑客拿到用户密码的密文，但可以通过猜的方式来破解密码），可以引入盐（salt）跟用户的密码组合在一起之后，再做哈希加密。

对大数据作信息摘要，通过一个较短的二进制编码来表示很大的数据
区块链：区块链是一块块区块组成的，每个区块分为区块头和区块体。区块头上保存着自己的区块体的哈希值和上一个区块头的哈希值。因为这种链式关系和哈希值的唯一性，只要区块链上任意一个区块被修改过，后面所有区块的哈希值就不对了。区块链使用的是SHA256哈希算法，计算哈希值非常耗时，如果要篡改一个区块，就必须重新计算该区块后面所有的区块的哈希值，短时间内几乎不可能做到。
Git commit id

校验数据的完整性和正确性，例如CRC校验。

关注散列值是否能均匀分布、散列函数计算效率

如何能实现一个会话粘滞的负载均衡算法？意思是，在同一个客户端上，在一次会话中的所有请求，都路由到同一个服务器上。

方法一：维护会话id到服务器id的映射，问题是内存会很大、维护成本高；
方法二：会话id作哈希，哈希值对服务器个数取模，就是服务器id

问题：有1T日志文件，里面记录了用户的搜索关键词，想要快速统计处每个关键词的搜索次数。
难点：搜索日志过大不能放到一台机器的内存中；如果只用一台机器处理，时间会很长
方案：MapReduce。相同的关键词分配到同一台机器上（搜索关键词->哈希值->对机器数取模->机器id）；每个机器分别计算关键词出现的次数，合并起来就是结果

问题：图库中有1亿张图片，如何快速判断给定图片是否在图库中？
难点：图库图片数量太多以致哈希后散列表无法存储在单台机器上
方案：多机处理，让每台机器只维护某一部分图片对应的散列表。每次从图库中读取一个图片，计算唯一标识，然后对机器数取模，得到构建散列表的机器编号；判断时，将图片通过同样的哈希算法得到哈希值后对机器数取模，取相应编号的机器上取查散列表。

海量数据的读写需要分布式缓存，如果单纯通过数据哈希后对机器数取模来决定分配的机器，那在扩容缩容时会导致原缓存的哈希失效，从而穿透缓存直接请求数据库引发雪崩效应。

使用一致性哈希算法可以解决上述问题，基本思想是将哈希值的数据范围化成多个小区间，每台机器负责几个小区间。当有新的机器加入时，就将某几个小区间的数据搬移到新的机器中，这样既不用重新哈希、也保持了各机器上数据数量的均衡。

关注