本脚本分为5部分:spider_main 主程序
url_manager url管理器
html_downloader 网页下载器
html_parser 网页解析器
html_outputer 网页解析器
spider_main程序源码import html_downloader
import html_outputer
import html_parser
import url_manager
class SpiderMain(object):
# 初始化
def __init__(self):
self.urls = url_manager.UrlManager()
self.downloader = html_downloader.HtmlDownloader()
self.parser = html_parser.HtmlParser()
self.outputer = html_outputer.HtmlOutputer()
def craw(self,start,end):
for i in range(start,end):
url = 'http://bj.58.com/pbdn/0/pn{}/'.format(i)
print('爬取第{}个列表页,网址是:{}'.format(i,url))
html_cont = self.downloader.download(url)
# 提取链接
new_urls = self.parser.parser_url(html_cont)
# 把提取待爬取的url放入url管