start_request ----start_url---->request-----parse---->item
默认情况下 start_request 读取 start_urls中的url,调用make…来返回request对象并调用回调函数parse 。这是一个request
所以默认情况下,我们只需要定义好start_urls与parse
item也会自动由定义的pipeline处理
通过更改start_request(self)可以自己定制一开始生成的request,比如有多个网址时写个for循环,自定义调用函数,则通过make_request_from_url()默认调用的parse失效
start_request----make_request_from_url----url---->request
custom_settings—在spider内设置,可以覆盖setting全局的一些内容,常用于多个spider时,各自的setting配置不一样
from_crawler—通过这个可以拿到一些全局的量
默认的方式为get提交,如果选择了post,默认调取
start_request的会失败,需要自己重写。
通过 make_requests_from_url更改了回调函数
下图中使用了start_quests,make…不生效
通过命令行传入参数 crawl -a