最近想上手Python。快速入门一门语言的方法就是写个小Demo。Python Demo必须是爬虫了。第一个小爬虫程序有些简陋,高手勿喷。
关于爬虫主要分为三个部分:根据队列中的URL爬取界面、获取内容、保存结果。
程序是以百度网站大全为种子URL,抓取页面中URL依次放入队列中,爬虫从URL队列依次取得新URL继续向外爬取。
# -*- coding: utf-8 -*-
import urllib2
import re
import thread
import time
class HTML_Spider:
def __init__(self):
self.url = []
#根据队列中的URL爬取界面
def GetPage