1、有几十亿的中文分词,分词是从文档中摘出来的。现在需要你设计一种数据结构来储存分词与文档的映射关系?(字节)
2、用4G的内存空间存储10亿个64字节url用什么数据结构?(字节)
假设每个网页 url 平均长度 64 字节,则 10 亿个 url 大约需要 60 G 内存。
使用布隆过滤器,针对 10 亿个 url,我们分配 100 亿个 bit,大约 1.2 G, 相比 100 G 内存,提升了近百倍
假设每个网页 url 平均长度 64 字节,则 10 亿个 url 大约需要 60 G 内存。
使用布隆过滤器,针对 10 亿个 url,我们分配 100 亿个 bit,大约 1.2 G, 相比 100 G 内存,提升了近百倍