爬虫其余知识点

ad494a0b686eba5fb1ce60472700577d2d0.jpg

8d421c5f8f3ee5f3b4d7e8087914d6d209c.jpg

如果scrapy.FormRequest里没有指定callback,会默认callback是pase方法。

304f6d775ea44db55fa46d025e567f21df8.jpg

f8a5b309dc850e84c5e521de2e85d01500e.jpg

4e2c9e29f535e4e878ed14febc692c62f69.jpg

不能把cookie放到headers里

0bc048116908ac065f78e6c23458a3c8c54.jpg

如果有多个form,可以在from_response里传一些参数确定

f12ddf0217129e1766220b61d1bb775c4d0.jpg

 

f9ccc064c408cd30ff9acf530e13c9e8634.jpg

根据第三方API识别验证码:

1dc2c09c7c08a640e8c738bf577f82452a9.jpg

 

在根目录下创建images文件夹(主要关注os操作)

7676d85c6144d586e9d0094a16554bee159.jpg

8d04a8c99dccda7234f260f15c9569a33d0.jpg

d540c1d5c6b945baa0a5733620045103114.jpg

841c8207b70dc272ad98f3c4a0a89dd0beb.jpg

cc058a87cfc538607784575403e266902b0.jpg

如果要实现分目录下载图片,需要在Pipelines里写一个类继承ImagePipeLine,然后重写file_path方法和get_media_requests方法。

1f03fac86a79c85d5a3944e1929cdab5a96.jpg

f14066a74977191d0a67074b3a06f7dd762.jpg

d0ecab1818136b547abf77bed906dfcc17f.jpg

照着写即可,需要改的地方很少。

然后把settings.py里的ITEM_PIPELINES改为自己写的这个pipeline类。

590fbf97ef503a77f3f5c22b3521bc39319.jpg

46d2dbbcad81a7e3124132903286b1e7413.jpg

e3e0fced531e604c972f3c562371223c423.jpg

7e6e19fa8255f199f317b30db439682d0df.jpg

然后设置:

669d5a1cb6d357c35bc5504ea465e11519d.jpg

1e064bdc2402de71cf38484ea3796e83bf2.jpg

 

同样,IP代理中间件:

第一种写法:

f3edaf96d5e4d43ced12827bc0fdd467381.jpg

然后在setting.py里:

62d5ac87965bd2da4e49869a5761c904ef6.jpg

 

第二种写法:独享代理:

01722e52f566db56e5ca5c97531b0bd471c.jpg

转载于:https://my.oschina.net/zhengchen/blog/3082642

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值