scrapy爬去过程遇到的问题的解决办法

最新推荐文章于 2020-05-28 20:22:08 发布

GeekLeee

最新推荐文章于 2020-05-28 20:22:08 发布

阅读量1.6k

点赞数

分类专栏： -----Scrapy

本文链接：https://blog.csdn.net/GeekLeee/article/details/52744878

版权

-----Scrapy 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

                        
  真的不要纠结2还是3，对于爬虫来讲，感觉不到区别，这些都不是事儿，除了编码和print。 
 
而且requests和bs4都支持吧（待我确定下）。 
 
那什么是事儿呢？ 
 
1 限制ip 
 
用requests代理，买代理，或者网上免费代理 
 
2 伪装成浏览器 
 
requests切换user agent 
 
3 先登录，保存cookies 
 
requests用session先post拿到cookies，再爬 
 
4 URL参数太多，不明白什么意思 
 
webdriver和phantomjs 
 
5 JavaScript和ajax问题 
 
浏览器f12分析请求规律，直接requests请求。或者用webdriver和phantomjs，如果用scrapy的话，用scrapyjs 
 
6 爬的太慢 
 
多线程，别说gil，一般是网络io慢，cpu等io 
 
7 还是慢 
 
scrapy异步（做过几个项目了，挺好用的），pyspider（这个支持Python3） 
 
8 还是慢 
 
分布式（暂时还没涉及），redis，scrapyd 
 
9 验证码 
 
对不起，帮不了你。简单的可以pil，灰度二值化切割识别 
 
10 如果你想自己实现异步请求的话 
 
grequests不错 
 
爪机回复，待补充。 
 
ps 不知不觉自己用Python有一段时间了，写过爬虫，web，最近用Python挣了点钱