设计一个网络爬虫(Python)

最新推荐文章于 2024-07-22 06:34:25 发布

Sonhhxg_柒

最新推荐文章于 2024-07-22 06:34:25 发布

阅读量1.6w

点赞数 4

分类专栏： Python 文章标签：爬虫 python

本文链接：https://blog.csdn.net/sikh_0529/article/details/126846817

版权

Python 专栏收录该内容

22 篇文章 14 订阅

订阅专栏

第 1 步：概述用例和约束

收集需求并确定问题的范围。提出问题以澄清用例和约束。讨论假设。

如果没有面试官来解决澄清问题，我们将定义一些用例和约束。

用例

我们将问题范围限定为仅处理以下用例

服务抓取 url 列表：
- 生成包含搜索词的页面的反向索引
- 为页面生成标题和片段
  - 标题和片段是静态的，它们不会根据搜索查询而改变
用户输入搜索词并查看相关页面列表，其中包含爬虫生成的标题和片段
- 仅为此用例绘制高级组件和交互，无需深入
服务具有高可用性

超出范围

搜索分析
个性化搜索结果
网页排名

约束和假设

状态假设

流量分布不均
- 有些搜索很受欢迎，而有些搜索只执行一次
仅支持匿名用户
生成搜索结果应该很快
网络爬虫不应陷入无限循环
- 如果图包含一个循环，我们就会陷入无限循环
10 亿个要抓取的链接
- 页面需要定期爬取，保证新鲜度
- 平均刷新率约为每周一次，对于热门网站更频繁
  - 每月抓取 40 亿个链接
- 每个网页的平均存储大小：500 KB
  - 为简单起见，计数更改与新页面相同
每月 1000 亿次搜索

练习使用更传统的系统——不要使用现有的系统，例如solr或nutch。

计算用量

如果您应该进行粗略的使用计算，请与您的面试官澄清。

每月存储 2 PB 的页面内容
- 每页 500 KB * 每月抓取 40 亿个链接
- 3 年内存储 72 PB 的页面内容
每秒 1,600 个写入请求
每秒 40,000 个搜索请求

方便的转换指南：

每月 250 万秒
每秒 1 个请求 = 每月 250 万个请求
每秒 40 个请求 = 每月 1 亿个请求
每秒 400 个请求 = 每月 10 亿个请求

第 2 步：创建高级设计

概述包含所有重要组件的高级设计。

第三步：设计核心组件

深入了解每个核心组件的细节。

用例：服务抓取 url 列表

我们假设我们有一个links_to_crawl最初基于整体网站受欢迎程度的排名的初始列表。如果这不是一个合理的假设，我们可以使用链接到外部内容（如Yahoo、DMOZ等）的流行网站为爬虫播种。

我们将使用一个表crawled_links来存储处理后的链接及其页面签名。

我们可以将links_to_crawl和存储crawled_links在键值NoSQL 数据库中。对于中的排名链接links_to_crawl，我们可以使用带有排序集的Redis来维护页面链接的排名。我们应该讨论选择 SQL 或 NoSQL 之间的用例和权衡。

爬虫服务通过循环执行以下操作来处理每个页面链接：
- 抓取排名靠前的页面链接
  - crawled_links在NoSQL 数据库中检查具有相似页面签名的条目
    - 如果我们有相似的页面，降低页面链接的优先级
      - 这可以防止我们进入一个循环
      - 继续
    - 否则，抓取链接
      - 将作业添加到反向索引服务队列以生成反向索引
      - 将作业添加到文档服务队列以生成静态标题和片段
      - 生成页面签名
      - 从NoSQL 数据库links_to_crawl中删除链接
      - crawled_links在NoSQL 数据库中插入页面链接和签名

与你的面试官澄清你需要写多少代码。

PagesDataStore是使用NoSQL 数据库的爬虫服务中的抽象：

class PagesDataStore(object):

    def __init__(self, db);
        self.db = db
        ...

    def add_link_to_crawl(self, url):
        """Add the given link to `links_to_crawl`."""
        ...

    def remove_link_to_crawl(self, url):
        """Remove the given link from `links_to_crawl`."""
        ...

    def reduce_priority_link_to_crawl(self, url)
        """Reduce the priority of a link in `links_to_crawl` to avoid cycles."""
        ...

    def extract_max_priority_page(self):
        """Return the highest priority link in `links_to_crawl`."""
        ...

    def insert_crawled_link(self, url, signature):
        """Add the given link to `crawled_links`."""
        ...

    def crawled_similar(self, signature):
        """Determine if we've already crawled a page matching the given signature"""
        ...

Page是Crawler Service中的一个抽象，它封装了页面、其内容、子 url 和签名：

class Page(object):

    def __init__(self, url, contents, child_urls, signature):
        self.url = url
        self.contents = contents
        self.child_urls = child_urls
        self.signature = signature

Crawler是Crawler Service中的主要类，由Page和组成PagesDataStore。

class Crawler(object):

    def __init__(self, data_store, reverse_index_queue, doc_index_queue):
        self.data_store = data_store
        self.reverse_index_queue = reverse_index_queue
        self.doc_index_queue = doc_index_queue

    def create_signature(self, page):
        """Create signature based on url and contents."""
        ...

    def crawl_page(self, page):
        for url in page.child_urls:
            self.data_store.add_link_to_crawl(url)
        page.signature = self.create_signature(page)
        self.data_store.remove_link_to_crawl(page.url)
        self.data_store.insert_crawled_link(page.url, page.signature)

    def crawl(self):
        while True:
            page = self.data_store.extract_max_priority_page()
            if page is None:
                break
            if self.data_store.crawled_similar(page.signature):
                self.data_store.reduce_priority_link_to_crawl(page.url)
            else:
                self.crawl_page(page)

处理重复项

我们需要小心网络爬虫不会陷入无限循环，当图形包含循环时会发生这种情况。

与你的面试官澄清你需要写多少代码。

我们要删除重复的网址：

对于较小的列表，我们可以使用类似sort | unique
如果要抓取 10 亿个链接，我们可以使用MapReduce仅输出频率为 1 的条目

class RemoveDuplicateUrls(MRJob):

    def mapper(self, _, line):
        yield line, 1

    def reducer(self, key, values):
        total = sum(values)
        if total == 1:
            yield key, total

检测重复内容更加复杂。我们可以根据页面内容生成一个签名，并比较这两个签名的相似性。一些潜在的算法是Jaccard 索引和余弦相似度。

确定何时更新爬网结果

需要定期抓取页面以确保新鲜度。爬网结果可能有一个timestamp字段，指示上次爬网页面的时间。在默认时间段之后，比如一周，所有页面都应该被刷新。经常更新或更受欢迎的网站可以在更短的时间间隔内刷新。

虽然我们不会深入分析分析的细节，但我们可以进行一些数据挖掘来确定特定页面更新之前的平均时间，并使用该统计数据来确定重新抓取页面的频率。

我们也可以选择支持Robots.txt让网站管理员控制抓取频率的文件。

用例：用户输入一个搜索词并查看包含标题和片段的相关页面列表

客户端向Web 服务器发送请求，作为反向代理运行
Web 服务器将请求转发到查询 API服务器
查询 API服务器执行以下操作：
- 解析查询
  - 删除标记
  - 将文本分解为术语
  - 修正错别字
  - 规范大写
  - 将查询转换为使用布尔运算
- 使用反向索引服务查找与查询匹配的文档
  - 反向索引服务对匹配结果进行排名并返回排名靠前的结果
- 使用文档服务返回标题和片段

Sonhhxg_柒

关注

4
点赞
踩
17

收藏

觉得还不错? 一键收藏
打赏
1
评论
设计一个网络爬虫(Python)

虽然我们不会深入分析分析的细节，但我们可以进行一些数据挖掘来确定特定页面更新之前的平均时间，并使用该统计数据来确定重新抓取页面的频率。经常更新或更受欢迎的网站可以在更短的时间间隔内刷新。最初基于整体网站受欢迎程度的排名的初始列表。我们可以根据页面内容生成一个签名，并比较这两个签名的相似性。用例：用户输入一个搜索词并查看包含标题和片段的相关页面列表。如果没有面试官来解决澄清问题，我们将定义一些用例和约束。练习使用更传统的系统——不要使用现有的系统，例如。来维护页面链接的排名。来存储处理后的链接及其页面签名。
复制链接

扫一扫