45.讲位图：如何实现网页爬虫中的URL去重功能

最新推荐文章于 2024-07-21 20:09:07 发布

tobebetter9527

最新推荐文章于 2024-07-21 20:09:07 发布

阅读量437

点赞数

分类专栏： # 数据结构和算法 - 极客时间王争文章标签：爬虫布隆过滤器

本文链接：https://blog.csdn.net/qq_39530821/article/details/127131986

版权

数据结构和算法 - 极客时间王争专栏收录该内容

52 篇文章 5 订阅

订阅专栏

文章目录

1. 算法解析
2. 总结延申

同一个网页链接有可能被包含在多个页面中，这就会导致爬虫在爬取的过程中，重复爬取相同的网页。如果你是一名负责爬虫的工程师，你会如何避免这些重复的爬取呢？

1. 算法解析

1.1 10亿个URL的特点

假设每个URL64字节，10亿个URL大概需要60G内存，如果是散列表存储，因为装载因子和存储链表指针等，可能需要100G以上。另外散列表的查询时间复杂度是O(1)，但是大O时间复杂度表示法会忽略掉常数、系数和低阶，实际查询时间可能不低。

由此，思考有没有占用内存更少，查询更快的数据存储结构和算法？

1.2 位图（BitMap）

有1千万个整数，整数的范围在1到1亿之间。如何快速查找某个整数是否在这1千万个整数中呢？

申请一个大小为1亿、数据类型为布尔类型（true或者false）的数组，多数语言布尔类型；
实际上true和false可以用一个bit存储**，那如何通过编程语言，来表示一个二进制位呢？**

public class BitMap {
  private char[] bytes;
  private int nbits;
  
  public BitMap(int nbits) {
    this.nbits = nbits;
    this.bytes = new char[nbits/8+1];
  }

  public void set(int k) {
    if (k > nbits) return;
    int byteIndex = k / 8;
    int bitIndex = k % 8;
    bytes[byteIndex] |= (1 << bitIndex);
  }

  public boolean get(int k) {
    if (k > nbits) return false;
    int byteIndex = k / 8;
    int bitIndex = k % 8;
    return (bytes[byteIndex] & (1 << bitIndex)) != 0;
  }
}

优点：访问效率高，如果数据范围不大，非常节省内存。

1.3 布隆过滤器（Bloom Filter）

对位图的改进。

简单点讲：多个哈希函数一起定位一个数据。

1.3.1 插入和查询过程

插入过程： 使用K个哈希函数，对同一个数字进行求哈希值，得到K个不同的哈希值，分别记作 $X_{1}$ ， $X_{2}$ ， $X_{3}$ ，…， $X_{K}$ 。我们把这K个数字作为位图中的下标，将对应的BitMap[ $X_{1}$ ]，BitMap[ $X_{2}$ ]，BitMap[ $X_{3}$ ]，…，BitMap[ $X_{K}$ ]都设置成true，也就是说，用K个二进制位，来表示一个数字的存在。