抓取网页的本地数据存储

最新推荐文章于 2024-02-23 23:57:32 发布

uestcyao

最新推荐文章于 2024-02-23 23:57:32 发布

阅读量3.9k

点赞数

分类专栏： py web抓取分析文章标签：存储 url 网络爬虫 email byte 磁盘

py web抓取分析专栏收录该内容

41 篇文章 0 订阅

订阅专栏

网络爬虫设计——URL去重存储库设计

http://hi.baidu.com/shirdrn/item/9a26421000439dfbdceecad6

在爬虫启动工作的过程中，我们不希望同一个网页被多次载，因为重复下载不仅会浪费CPU机时，还会为搜索引擎系统增加负荷。而想要控制这种重复性下载问题，就要考虑下载所依据的超链接，只要能够控制待下载的URL不重复，基本可以解决同一个网页重复下载的问题。

非常容易想到，在搜索引擎系统中建立一个全局的专门用来检测，是否某一个URL对应的网页文件曾经被下载过的URL存储库，这就是方案。

接着要考虑的就是如何能够更加高效地让爬虫工作，确切地说，让去重工作更加高效。如果实现去重，一定是建立一个URL存储库，并且已经下载完成的URL在进行检测时候，要加载到内存中，在内存中进行检测一定会比直接从磁盘上读取速度快很多。

我们先从最简单的情况说起，然后逐步优化，最终得到一个非常不错的解决方案。

第一，基于磁盘的顺序存储。

这里，就是指把每个已经下载过的URL进行顺序存储。你可以把全部已经下载完成的URL存放到磁盘记事本文件中。每次有一个爬虫线程得到一个任务URL开始下载之前，通过到磁盘上的该文件中检索，如果没有出现过，则将这个新的URL写入记事本的最后一行，否则就放弃该URL的下载。

这种方式几乎没有人考虑使用了，但是这种检查的思想是非常直观的。试想，如果已经下载了100亿网页，那么对应着100亿个链接，也就是这个检查URL是否重复的记事本文件就要存储这100亿URL，况且，很多URL字符串的长度也不小，占用存储空间不说，查找效率超级低下，这种方案肯定放弃。

第二，基于Hash算法的存储。

对每一个给定的URL，都是用一个已经建立好的Hash函数，映射到某个物理地址上。当需要进行检测URL是否重复的时候，只需要将这个URL进行Hash映射，如果得到的地址已经存在，说明已经被下载过，放弃下载，否则，将该URL及其Hash地址作为键值对存放到Hash表中。

这样，URL去重存储库就是要维护一个Hash表，如果Hash函数设计的不好，在进行映射的时候，发生碰撞的几率很大，则再进行碰撞的处理也非常复杂。而且，这里使用的是URL作为键，URL字符串也占用了很大的存储空间。

第三，基于MD5压缩映射的存储。

MD5算法是一种加密算法，同时它也是基于Hash的算法。这样就可以对URL字符串进行压缩，得到一个压缩字符串，同时可以直接得到一个Hash地址。另外，MD5算法能够将任何字符串压缩为128位整数，并映射为物理地址，而且MD5进行Hash映射碰撞的几率非常小，这点非常好。从另一个方面来说，非常少的碰撞，对于搜索引擎的爬虫是可以容忍的。况且，在爬虫进行检测的过程中，可以通过记录日志来保存在进行MD5时发生碰撞的URL，通过单独对该URL进行处理也是可行的。

下面就是是对URL进行压缩的MD5方法，对URL字符串进行压缩：

public static String md5(String string) {
   char hexDigits[] = {'0', '1', '2', '3', '4', '5', '6', '7', '8', '9', 'a', 'b', 'c', 'd',
       'e', 'f' };
   try {
    byte[] bytes = string.getBytes();
    MessageDigest messageDigest = MessageDigest.getInstance("MD5");
    messageDigest.update(bytes);
    byte[] updateBytes = messageDigest.digest();
    int len = updateBytes.length;
    char myChar[] = new char[len * 2];
    int k = 0;
    for (int i = 0; i < len; i++) {
     byte byte0 = updateBytes[i];
     myChar[k++] = hexDigits[byte0 >>> 4 & 0x0f];
     myChar[k++] = hexDigits[byte0 & 0x0f];
    }
    return new String(myChar);
   } catch (Exception e) {
    return null;
   }
}

在Java中有一个Map类非常好，你可以将压缩后的URL串作为Key，而将Boolean作为Value进行存储，然后将工作中的Map在爬虫停止工作后序列化到本地磁盘上；当下一次启动新的爬虫任务的时候，再将这个Map反序列化到内存中，供爬虫进行URL去重检测。

第四，基于嵌入式Berkeley DB的存储。

Berkeley DB的特点就是只存储键值对类型数据，这和URL去重有很大关系。去重，可以考虑对某个键，存在一个值，这个值就是那个键的状态。

使用了Berkeley DB，你就不需要考虑进行磁盘IO操作的性能损失了，这个数据库在设计的时候很好地考虑了这些问题，并且该数据库支持高并发，支持记录的顺序存储和随机存储，是一个不错的选择。

URL去重存储库使用Berkeley DB，压缩后的URL字符串作为Key，或者直接使用压缩后的URL字节数组作为Key，对于Value可以使用Boolean，一个字节，或者使用字节数组，实际Value只是一个状态标识，减少Value存储占用存储空间。

第五，基于布隆过滤器（Bloom Filter）的存储。

使用布隆过滤器，设计多个Hash函数，也就是对每个字符串进行映射是经过多个Hash函数进行映射，映射到一个二进制向量上，这种方式充分利用了比特位。

数学之美系列二十一－布隆过滤器（Bloom Filter）

http://www.google.com.hk/ggblog/googlechinablog/2007/07/bloom-filter_7469.html

在日常生活中，包括在设计计算机软件时，我们经常要判断一个元素是否在一个集合中。比如在字处理软件中，需要检查一个英语单词是否拼写正确（也就是要判断它是否在已知的字典中）；在 FBI，一个嫌疑人的名字是否已经在嫌疑名单上；在网络爬虫里，一个网址是否被访问过等等。最直接的方法就是将集合中全部的元素存在计算机中，遇到一个新元素时，将它和集合中的元素直接比较即可。一般来讲，计算机中的集合是用哈希表（hash table）来存储的。它的好处是快速准确，缺点是费存储空间。当集合比较小时，这个问题不显著，但是当集合巨大时，哈希表存储效率低的问题就显现出来了。比如说，一个象 Yahoo,Hotmail 和 Gmai 那样的公众电子邮件（email）提供商，总是需要过滤来自发送垃圾邮件的人（spamer）的垃圾邮件。一个办法就是记录下那些发垃圾邮件的 email 地址。由于那些发送者不停地在注册新的地址，全世界少说也有几十亿个发垃圾邮件的地址，将他们都存起来则需要大量的网络服务器。如果用哈希表，每存储一亿个 email 地址，就需要 1.6GB 的内存（用哈希表实现的具体办法是将每一个 email 地址对应成一个八字节的信息指纹 googlechinablog.com/2006/08/blog-post.html，然后将这些信息指纹存入哈希表，由于哈希表的存储效率一般只有 50%，因此一个 email 地址需要占用十六个字节。一亿个地址大约要 1.6GB，即十六亿字节的内存）。因此存贮几十亿个邮件地址可能需要上百 GB 的内存。除非是超级计算机，一般服务器是无法存储的。

今天，我们介绍一种称作布隆过滤器的数学工具，它只需要哈希表 1/8 到 1/4 的大小就能解决同样的问题。

布隆过滤器是由巴顿.布隆于一九七零年提出的。它实际上是一个很长的二进制向量和一系列随机映射函数。我们通过上面的例子来说明起工作原理。

假定我们存储一亿个电子邮件地址，我们先建立一个十六亿二进制（比特），即两亿字节的向量，然后将这十六亿个二进制全部设置为零。对于每一个电子邮件地址 X，我们用八个不同的随机数产生器（F1,F2, ...,F8）产生八个信息指纹（f1, f2, ..., f8）。再用一个随机数产生器 G 把这八个信息指纹映射到 1 到十六亿中的八个自然数 g1, g2, ...,g8。现在我们把这八个位置的二进制全部设置为一。当我们对这一亿个 email 地址都进行这样的处理后。一个针对这些 email 地址的布隆过滤器就建成了。（见下图）

现在，让我们看看如何用布隆过滤器来检测一个可疑的电子邮件地址 Y 是否在黑名单中。我们用相同的八个随机数产生器（F1, F2, ..., F8）对这个地址产生八个信息指纹 s1,s2,...,s8，然后将这八个指纹对应到布隆过滤器的八个二进制位，分别是 t1,t2,...,t8。如果 Y 在黑名单中，显然，t1,t2,..,t8 对应的八个二进制一定是一。这样在遇到任何在黑名单中的电子邮件地址，我们都能准确地发现。

布隆过滤器决不会漏掉任何一个在黑名单中的可疑地址。但是，它有一条不足之处。也就是它有极小的可能将一个不在黑名单中的电子邮件地址判定为在黑名单中，因为有可能某个好的邮件地址正巧对应个八个都被设置成一的二进制位。好在这种可能性很小。我们把它称为误识概率。在上面的例子中，误识概率在万分之一以下。

布隆过滤器的好处在于快速，省空间。但是有一定的误识别率。常见的补救办法是在建立一个小的白名单，存储那些可能别误判的邮件地址。