题目描述:给A,B两个文件,各存放50亿条URL,每条URL占用64个字节,内存限制为4G,找出A,B中相同的URL。
分析:我们先来看如果要把这些URL全部加载到内存中,需要多大的空间。
1MB = 2^20 = 10^6 = 100W
1GB = 2^30 = 10^9 = 10亿
50亿 = 5G * 64 Byte = 320G
明显是不可能全部加载到内存中的。我们可采用以下方法解决:
方法1:
采用Bloom filter,假设布隆过滤器的错误率为0.01,则位数组大小
题目描述:给A,B两个文件,各存放50亿条URL,每条URL占用64个字节,内存限制为4G,找出A,B中相同的URL。
分析:我们先来看如果要把这些URL全部加载到内存中,需要多大的空间。
1MB = 2^20 = 10^6 = 100W
1GB = 2^30 = 10^9 = 10亿
50亿 = 5G * 64 Byte = 320G
明显是不可能全部加载到内存中的。我们可采用以下方法解决:
方法1:
采用Bloom filter,假设布隆过滤器的错误率为0.01,则位数组大小