百度海量数据题++更新...

最新推荐文章于 2024-09-20 14:09:11 发布

缤纷的书签

最新推荐文章于 2024-09-20 14:09:11 发布

阅读量803

点赞数

文章标签：百度 url 存储 byte 算法语言

本文链接：https://blog.csdn.net/clam_clam/article/details/6868235

版权

从两个文件(各含50亿个url)中找出共同的url

 给定a、b两个文件，各存放50亿个url，每个url各占用64字节，内存限制是4G，如何找出a、b文件共同的url？
 答案： 
 可以估计每个文件的大小为5G*64=300G，远大于4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。 
 遍历文件a，对每个url求取hash(url)%1000，（关键：hash 是通过计算不是比较，所以相同的key 有相同hash值）然后根据所得值将url分别存储到1000个小文件（设为a0,a1,...a999）当中。这样每个小文件的大小约为300M。遍历文件b，采取和a相同的方法将url分别存储到1000个小文件(b0,b1....b999)中。这样处理后，所有可能相同的url都在对应的小文件(a0 vs b0, a1 vs b1....a999 vs b999)当中，不对应的小文件（比如a0 vs b99）不可能有相同的url。然后我们只要求出1000对小文件中相同的url即可。 
 比如对于a0 vs b0，我们可以遍历a0，将其中的url存储到hash_map当中。然后遍历b0，如果url在hash_map中，则说明此url在a和b中同时存在，保存到文件中即可。 
 如果分成的小文件不均匀，导致有些小文件太大（比如大于2G），可以考虑将这些太大的小文件再按类似的方法分成小小文件即可。
 ------------------------------------------------------------------------
 
 
 象搜索的输入信息是一个字符串，统计300万输入信息中的最热门的前10条，我们每次输入的一个字符串为不超过255byte，内存使用只有1G。请描述思想，写出算法（c语言），空间和时间复杂度。
 
 
 答案： 
 300万个字符串最多（假设没有重复，都是最大长度）占用内存3M*1K/4=0.75G。所以可以将所有字符串都存放在内存中进行处理。 
 可以使用key为字符串（事实上是字符串的hash值），值为字符串出现次数的hash来统计每个每个字符串出现的次数。并用一个长度为10的数组/链表来存储目前出现次数最多的10个字符串。 
 这样空间和时间的复杂度都是O(n)。

 http://kenby.iteye.com/blog/1031124