这是一条时隔一年后的面试凉经。当时的目标厂家是字节跳动,目标岗位大数据工程师。在此记录我印象最深刻的一个问题。
由于在大三期间有过实习经历,写过爬虫,并且将这一点写在了我的求职简历中。所以面试官就我在爬虫系统中是如何处理URL的重复问题的。
URL去重问题:爬虫在抓取网页时会抓取到数亿条的URL,而这在互联网种属九牛一毛。并且网页中的URL是相互链接的,如果抓取到相同的URL,会行程闭环,主要也是为了节省资源。所以在抓取URL的时候将抓取到的URL放入一个队列中,对后抓取的URL进行判断,如果已经存在于队列中那么就不进行重复抓取。
我当时的解决办法是使用HashSet进行去重,因为HashSet是一个元素不允许重复的集合,这也是最容易想到的办法,这也是我唯一用过的办法,由于我的爬虫系统只爬取特定的网站,所以HashSet足以解决我的业务场景。所以面对面试官的问题我只有一种答案,并且其他的答案也没跳出set这个范围。
其实URL的去重方法有很多种,而我能想到的只有第一种。
1、将URL放到Set或HashSet中去重(一亿条占用10G内存)。
2、将URL保存到数据库进行去重,创建字段的UNIQUE属性或者创建一个唯一的索引,在插入数据之前检查待插入的数据是否存在。
3、使用Map或是一个定长数组记录某一个URL是否被访问过。
4、使用Bitmap或Bloomfilter方法去重(URL经过hash后映射到bit的每一个位上,一亿URL占用约12M,问题是存在冲突)。
1、2、3解决策略存在的问题
关于Set和Map都是基于内存的(一亿条URL约占用10G内存),随着URL的不断抓取一定会发生内存溢出。对于数据库UNIQUE属性,将相同的URL插入数据库数据库会报错,如果多次报错后数据库会崩溃。如果每次抓取到URL都去数据库查询这样太影响效率。
使用Bitmap方法去重:原理是把URL经过hash后映射到bit的每一个位上,一亿URL占用约12M,主要缺点是去重没那么精准,存在冲突。
BloomFilter(布隆过滤器)去重:Bloom Filter是由Bloom在1970年提出的一种多哈希函数映射的快速查找算法。通常应用在一些需要快速判断某个元素是否属于集合,但是并不严格要求100%正确的场合。
Bloom Filter算法如下:
(1)创建一个m位BitSet,先将所有位初始化为0,然后选择k个不同的哈希函数。第i个哈希函数对字符串str哈希的结果记为h(i,str),且h(i,str)的范围是0到m-1 。
(2)将字符串str“记录”到BitSet中:对于字符串str,分别计算h(1,str),h(2,str)…… h(k,str)。然后将BitSet的第h(1,str)、h(2,str)…… h(k,str)位设为1。
(3)然后检查字符串str是否被BitSet记录过的过程:对于字符串str,分别计算h(1,str),h(2,str)…… h(k,str)。然后检查BitSet的第h(1,str)、h(2,str)…… h(k,str)位是否为1,若其中任何一位不为1则可以判定str一定没有被记录过。若全部位都是1,则“认为”字符串str存在。若一个字符串对应的Bit不全为1,则可以肯定该字符串一定没有被Bloom Filter记录过。(这是显然的,因为字符串被记录过,其对应的二进制位肯定全部被设为1了)但是若一个字符串对应的Bit全为1,实际上是不能100%的肯定该字符串被Bloom Filter记录过的。(因为有可能该字符串的所有位都刚好是被其他字符串所对应)这种将该字符串划分错的情况,称为false positive 。