scrapy实践简记

1. Scrapy的架构:

使用Scrapy框架,需要自己的应用编写Spider和ItemPipeline的部分,如需要也会重写Middlewares

具体地说,我们需要实现三个类:

Spider类:用来进行网页解析,定义下一个爬取网页的路径,具体通过重写parse()实现;

Item类:用来格式化的定义所爬取的数据;

ItemPipeline类:用来处理爬取的数据,即Item类,通过重写三个函数open_spider(),process_item()和close_spider()实现

 

2.Spider类

parse()函数用来实现:

a. 从response提取所需要的信息

b. 将所提取数据部分通过yield抛送给scrapy engine,后续通过ItemPipleline来处理数据item

c. 将所提取地址部分通过yield抛送给scrapy engine,这样可以爬取下一个地址

3.ItemPipeline类

a. open_spider():指明Spider类执行的时候的动作,比如链接数据库

b. process_item():处理数据item,比如向数据库提交INSERT语句

c. close_spider():Spider执行完成时的动作,比如COMMIT事务

4. FAQ

a. 多层网页提取:通过scrapy.Request的meta和callback来控制,meta用来传递数据,callback用来指明下级页面的parse()函数

b. 须登陆的网站:用cookie作session保持

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值