spider

start_request ----start_url---->request-----parse---->item

默认情况下 start_request 读取 start_urls中的url,调用make…来返回request对象并调用回调函数parse 。这是一个request
所以默认情况下,我们只需要定义好start_urls与parse
item也会自动由定义的pipeline处理
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
通过更改start_request(self)可以自己定制一开始生成的request,比如有多个网址时写个for循环,自定义调用函数,则通过make_request_from_url()默认调用的parse失效

在这里插入图片描述
start_request----make_request_from_url----url---->request

在这里插入图片描述
在这里插入图片描述
custom_settings—在spider内设置,可以覆盖setting全局的一些内容,常用于多个spider时,各自的setting配置不一样
在这里插入图片描述
from_crawler—通过这个可以拿到一些全局的量
在这里插入图片描述
在这里插入图片描述
默认的方式为get提交,如果选择了post,默认调取
start_request的会失败,需要自己重写。
在这里插入图片描述
通过 make_requests_from_url更改了回调函数
在这里插入图片描述
在这里插入图片描述
下图中使用了start_quests,make…不生效
在这里插入图片描述


通过命令行传入参数 crawl -a
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值