Python 简单爬虫

本文介绍了如何使用Python实现一个简单的爬虫,包括URL管理器、网页下载器、内容解析器和内容收集器四个部分。通过URL管理器控制爬取的URL,网页下载器负责获取网页内容,内容解析器提取所需信息,内容收集器则管理解析出的数据。
摘要由CSDN通过智能技术生成

Python 简单爬虫

实现一个基本的爬虫需要以下内容:

  • URL管理器,用来管理已经爬取的URL和未爬取的URL
  • 网页内容下载器
  • 内容解析器,解析出网页中需要的有价值的信息
  • 内容收集器

URL管理器实现

URL管理器提供一个获取和添加URL的方法,一方面为下载器提供要下载的连接;另一方面,保存解析器解析到的URL,补充URL管理器中的URL内容

#!/usr/bin/env python
# -*- coding: utf-8 -*-

'''
    地址管理器
'''

__author__ = 'wlong.yi@gmail.com'

class UrlManager(object):
    """docstring for UrlManager"""
    def __init__(self):
        self.new_urls = set()
        self.old_urls = set()

    def add_url(self, url):
        if url is None:
            return

        if url not in self.new_urls and url not in self.old_urls:
            self.new_urls.add(url)

    def add_urls(self, urls):
        if urls is None or len(urls) == 0:
            return

        for url in urls:
            self.add_url(url)

    def 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值