Python 简单爬虫
实现一个基本的爬虫需要以下内容:
- URL管理器,用来管理已经爬取的URL和未爬取的URL
- 网页内容下载器
- 内容解析器,解析出网页中需要的有价值的信息
- 内容收集器
URL管理器实现
URL管理器提供一个获取和添加URL的方法,一方面为下载器提供要下载的连接;另一方面,保存解析器解析到的URL,补充URL管理器中的URL内容
#!/usr/bin/env python
# -*- coding: utf-8 -*-
'''
地址管理器
'''
__author__ = 'wlong.yi@gmail.com'
class UrlManager(object):
"""docstring for UrlManager"""
def __init__(self):
self.new_urls = set()
self.old_urls = set()
def add_url(self, url):
if url is None:
return
if url not in self.new_urls and url not in self.old_urls:
self.new_urls.add(url)
def add_urls(self, urls):
if urls is None or len(urls) == 0:
return
for url in urls:
self.add_url(url)
def