谈到爬虫,必出利器Scrapy。如果说之前的爬虫借助于个人知识的野蛮生长,那么Scrapy的诞生无疑降低了万众爬虫的门槛。
什么是Scrapy?一言以蔽之:它是一个基于Python语言开发的网络数据抓取的框架,任何人都可以根据需求方便的修改。Scrapy由下面几个部分组成
(上图来源于网络,侵删)
spiders:爬虫的主模块,主要内容包括网页的解析和内容的结构化
items:定义我们需要的结构化数据,使用方法类似于字典dict
pipelines:管道模块,处理spider模块分析好的结构化数据,如存入数据库或者jason文件
setting:设置,对整个爬虫过程中的相关参数进行设置,如头文件head,cookie等。
middlewares:中间件ÿ