Python 简单爬虫

最新推荐文章于 2024-06-23 15:26:14 发布

小喽啰A

最新推荐文章于 2024-06-23 15:26:14 发布

阅读量591

点赞数

分类专栏： python 文章标签： python 爬虫

本文链接：https://blog.csdn.net/fcx520/article/details/52292382

版权

本文介绍了如何使用Python实现一个简单的爬虫，包括URL管理器、网页下载器、内容解析器和内容收集器四个部分。通过URL管理器控制爬取的URL，网页下载器负责获取网页内容，内容解析器提取所需信息，内容收集器则管理解析出的数据。

摘要由CSDN通过智能技术生成

Python 简单爬虫

实现一个基本的爬虫需要以下内容：

URL管理器，用来管理已经爬取的URL和未爬取的URL
网页内容下载器
内容解析器，解析出网页中需要的有价值的信息
内容收集器

URL管理器实现

URL管理器提供一个获取和添加URL的方法，一方面为下载器提供要下载的连接；另一方面，保存解析器解析到的URL，补充URL管理器中的URL内容

#!/usr/bin/env python
# -*- coding: utf-8 -*-

'''
    地址管理器
'''

__author__ = 'wlong.yi@gmail.com'

class UrlManager(object):
    """docstring for UrlManager"""
    def __init__(self):
        self.new_urls = set()
        self.old_urls = set()

    def add_url(self, url):
        if url is None:
            return

        if url not in self.new_urls and url not in self.old_urls:
            self.new_urls.add(url)

    def add_urls(self, urls):
        if urls is None or len(urls) == 0:
            return

        for url in urls:
            self.add_url(url)

    def