哈希的应用
哈希思想在算法中的应用繁多其重要性是不言而喻的,这里简单介绍两种哈希在大数据中的应用。
位图
算法思路
假如说有这么一种情景:给40亿个不重复的无符号整数,没排过序,判断一个无符号整数是否在这40亿个数中。
首先我们从时间考虑,假如说我们遍历40亿个数,事件复杂度是On
的,如果我们先排序再用二分查找,排序要ONlogN
二分查找要OlogN
也还是不够快。不过这道题最重要的不是它的时间,而是空间,如果我们把40亿个整形全放到内存中需要4G * 4 = 16G
内存,40亿字节 == 4G
,不难发现我们根本存不下,那么怎么办呢?这里就需要用到位图。
我们标记一个数是否存在根本不需要存储完整整数,我们只需要用存在或者不存在两种状态对其进行标记即可,而两种状态的标记,只需要1位数据即可,由此我们可以用40亿比特位来标记40亿个数是否存在。并且无符号整形的上限差不多也就在42亿,我们就算标记完全部数字用到40亿位也只需要4 G / 8 = 500M
内存,由此我们使用位图进行标记差不多相当于将空间压缩了32倍。
标记思路就是40多亿位分表标识40多亿无符号整型,一个数如果存在则它对应位标记为1
,否则为0
。假如说0存在,则第0位标记为1
,32不存在则第32位标记为0,而无符号整形也是有上限的,40多亿位完全可以标记所有无符合整形。
实现
#include <iostream>
#include <vector>
class BitSet
{
public:
//要保证每一个数据都能映射到一个唯一的位置,位图的大小与最大映射数据上限有关
//因此这里的range代表的是映射的最大数据
BitSet(size_t range)
{
_bs.resize((range >> 5) + 1);
}
//存储
void Set(int num)