如果scrapy.FormRequest里没有指定callback,会默认callback是pase方法。
不能把cookie放到headers里
如果有多个form,可以在from_response里传一些参数确定
根据第三方API识别验证码:
在根目录下创建images文件夹(主要关注os操作)
如果要实现分目录下载图片,需要在Pipelines里写一个类继承ImagePipeLine,然后重写file_path方法和get_media_requests方法。
照着写即可,需要改的地方很少。
然后把settings.py里的ITEM_PIPELINES改为自己写的这个pipeline类。
然后设置:
同样,IP代理中间件:
第一种写法:
然后在setting.py里:
第二种写法:独享代理: