爬虫小记(一)

scrapy runspider somefile.py -o xx.csv

1-在somefile.py文件中找到已经定义的爬虫,然后通过抓取引擎运行爬虫。

我们在文件中显然定义的是我们想要的内容,所以我们需要我们目标地址,地址中我们需要的对象,以及其他的细节。

2-使用start_urls作为初始url生成request,并默认把他作为回调函数。

3-在parse中采用css选择器获得目标URL,并注册parse_question作为目标URL的回调函数。

从这两步可以感觉到,每一个URL都是需要有一个回调函数的,不同的回调函数显然可以执行不同的功能。

背后处理:

请求被异步的调度、处理。有一些参数可以控制过程,不如每个域名/ip的并发请求数、请求之间的下载延迟等。

- - - - -- - - - -- - - -- - -- - - - -- - - - -- - --  - - -- - -- - - - - - - -- - 

scrapy是专门为了抓取结构化的数据而编写的一个数据抓取框架,整个框架大概分为五个部分,包括scrapy,调度器,下载器,spider,pipeline。恩,有一个英文忘记了。

具体的抓取过程是,scrapy引擎作为一个处理中心,首先要从调度器中取出URL作为抓取的目标URL,然后将这个URL解析成一个request,将这个request传给下载器,下载器把下载下来的东西作为response,response传给实体管道pipeline,管道解析这个包,把其中的URL再传给调度器,直到最后调度器中没有URL,数据抓取结束。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值