1.新建项目:scrapy startproject xxx项目名,例如:
scrapy startproject new_project
2、 创建爬虫文件
name:为文件的名字,
在spiders文件下运行 :scrapy genspider -t crawl name 'xxxx.com'
3、运行爬虫文件
scrapy crawl name
2、Pipeline.py 文件
- 对应 pipelines 文件
- 爬虫提取出数据存入 item 后,item 中保存的数据需要进一步处理,比如清洗,去重,存储等
- Pipeline 需要处理 process_item 函数
- process_item
- spider 提取出来的 item 作为参数传入,同时传入的还有 spider
- 此方法必须实现
- 必须返回一个 Item 对象,被丢弃的 item 不会被之后的 pipeline
- _ init _:构造函数
- 进行一些必要的参数初始化
- open_spider(spider):
- spider 对象对开启的时候调用
- close_spider(spider):
- 当 spider 对象被关闭的时候调用