极客讲堂 - 数据结构与算法之美 - 哈希算法，二叉树基础，红黑树，递归树，堆和堆排序，堆的应用，图的表示

本文链接：https://blog.csdn.net/san_77227487/article/details/85344627

21 | 哈希算法（上）：如何防止数据库中的用户信息被脱库？

1. 哈希算法要满足什么条件？

(1) 从哈希值不能反向推导出原始数据

(2) 原始数据只修改了一个 Bit，最后得到的哈希值也不相同

(3) 散列冲突的概率要很小

(4) 哈希算法的执行效率要尽量高效，针对较长的文本，也能快速地计算出哈希值。

2. 哈希算法的七个应用

(1) 安全加密，比如：

MD5 消息摘要算法，SHA 安全散列算法，DES 数据加密标准, AES 高级加密标准

(2) 唯一标识，比如：

生成图片的唯一标识。从图片的二进制码串开头取 100 个字节，中间取 100 个字节，最后再取 100 个字节，然后将这 300 个字节放到一块，通过哈希算法（比如 MD5），得到一个哈希字符串，用它作为图片的唯一标识.

(3) 数据校验

通过相同的哈希算法，对下载好的文件块逐一求哈希值，然后跟种子文件中保存的哈希值比对。

(4) 散列函数

为了将一堆数据实现平均分布，以及高效率。

(5) 负载均衡 (6) 数据分片 (7) 分布式存储 : 下一节讲。

3. 如何防止数据库中的用户信息被脱库？、

(1) 通过哈希算法，对用户密码进行加密之后再存储

(2) 引入一个盐（salt），跟用户的密码组合在一起，增加密码的复杂度

22 | 哈希算法（下）：哈希算法在分布式系统中有哪些应用？

1. 负载均衡

利用哈希算法替代映射表，可以实现一个会话粘滞的负载均衡策略。(同一个客户端上，在一次会话中的所有请求都路由到同一个服务器上)

2. 数据分片

通过哈希算法对处理的海量数据进行分片，多机分布式处理，可以突破单机资源的限制。

3. 分布式存储

利用一致性哈希算法，可以解决缓存等分布式系统的扩容、缩容导致数据大量搬移的难题。

具体说明查看 404,您访问的页面已经不存在!

https://www.cnblogs.com/moonandstar08/p/5405991.html

23 | 二叉树基础（上）

1. 概念

(1) 满二叉树：除了叶子节点之外，每个节点都有左右两个子节点。

(2) 完全二叉树：叶子节点都在最底下两层，最后一层的叶子节点都靠左，并且除了最后一层，其他层的节点个数都要达到最大。

(3) 节点的高度：节点到叶子节点的最长路径(边的数目)

(4) 节点的深度：根节点到这个节点所经历的边的个数

(5) 节点的层数：节点的深度+1

(6) 树的高度：根节点的高度

2. 存储二叉树的方法，包括链式存储法和顺序存储法。

(1) 链式存储法

节点有三个字段，一个存储数据，另外两个是指向左右子节点的指针。

大部分二叉树代码都是通过这种结构来实现的。

(2) 顺序存储法

根节点下标为1，左节点下标为2，右节点下标为3，以此类推。

节点 X 存储在数组中下标为 i 的位置

下标为 2 * i 就是左子节点

下标为 2 * i + 1 就是右子节点

下标为 i/2 的就是它的父节点

下标为 0 的存储位置不使用，i从1开始

3. 二叉树的遍历

(1) 前序遍历 : 中左右

(2) 中序遍历 : 左中右

(3) 后序遍历 : 左右中

24 | 二叉树基础（下）

1. 二叉查找树要求定义：

树中的任意一个节点，其左子树中的每个节点的值，都要小于这个节点的值，而右子树节点的值都大于这个节点的值。

2. 查找：

从根节点开始，要查找的值比根节点小的话，继续查左节点；要查找的值比根节点大的话，继续查右节点。

3. 插入：

新插入的数据是在叶子节点上的，所以不用考虑太多，遍历下去插入就行。

4. 删除：

分三种情况来处理

(1) 要删除的节点没有子节点的话，只需将其父节点指向它的指针置为null

(2) 有一个子节点，将父节点指向它指针改为指向这个唯一子节点。

(3) 有两个子节点，将右子树中最小的节点，替换到要删除的节点上。

5. 重复数据的二叉查找树

有重复数据的话，可以两种方式处理：

(1) 链表的方式，把值相同的数据都存储在同一个节点上。

(2) 新插入的数据当作大于来处理.

6. 时间复杂度:

跟树的高度成正比，也就是 O(height)

7. 二叉查找树相比散列表的优势：

(1) 输出有序数据：散列表的数据是无序的，二叉查找树，只需中序遍历就能输出有序数据。

(2) 扩容耗时：散列表扩容耗时更大。

(3) 复杂程度：散列表复杂一点，需要考虑散列函数，冲突情况更多。

附：

散列表：插入删除查找都是O(1), 是最常用的，但其缺点是不能顺序遍历以及扩容缩容的性能损耗。适用于那些不需要顺序遍历，数据更新不那么频繁的。

跳表：插入删除查找都是O(logn), 并且能顺序遍历。缺点是空间复杂度O(n)。适用于不那么在意内存空间的，其顺序遍历和区间查找非常方便。

红黑树：插入删除查找都是O(logn), 中序遍历即是顺序遍历，稳定。缺点是难以实现，去查找不方便。其实跳表更佳，但红黑树已经用于很多地方了。