有段时间没有更新博客了,年底来写一下自己对scrapy框架应用的心得
scrapy基础部分就不再做解析了,请移步:scrapy中文文档 https://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/overview.html
此次对scrapy应用是基于二次开发的,利用scrapy的框架的爬取大致流程,自己独立写模块,可以使开发流程更为简洁明了,降低了程序内部耦合,在实际应用过程中有一定的通用性, 而又不拘泥于scrapy原生的语法。
接下来分析一下我的scrapy,spider部分的结构
class lagouSpider(scrapy.Spider):
handle_httpstatus_list = [500,503, 504, 400, 403, 404, 408]
name = "lagou"
allowed_domains = ["lagou.com"]
start_urls = [(url_prefix.format(i) , i, 'company') for i in range(1, 180000)]
<