1. Scrapy的架构:
使用Scrapy框架,需要自己的应用编写Spider和ItemPipeline的部分,如需要也会重写Middlewares
具体地说,我们需要实现三个类:
Spider类:用来进行网页解析,定义下一个爬取网页的路径,具体通过重写parse()实现;
Item类:用来格式化的定义所爬取的数据;
ItemPipeline类:用来处理爬取的数据,即Item类,通过重写三个函数open_spider(),process_item()和close_spider()实现
2.Spider类
parse()函数用来实现:
a. 从response提取所需要的信息
b. 将所提取数据部分通过yield抛送给scrapy engine,后续通过ItemPipleline来处理数据item
c. 将所提取地址部分通过yield抛送给scrapy engine,这样可以爬取下一个地址
3.ItemPipeline类
a. open_spider():指明Spider类执行的时候的动作,比如链接数据库
b. process_item():处理数据item,比如向数据库提交INSERT语句
c. close_spider():Spider执行完成时的动作,比如COMMIT事务
4. FAQ
a. 多层网页提取:通过scrapy.Request的meta和callback来控制,meta用来传递数据,callback用来指明下级页面的parse()函数
b. 须登陆的网站:用cookie作session保持