反爬虫:python多进程获取代理加入队列并用代理爬虫
这里写自定义目录标题写在前面主要用到的库和知识点代码写在后面
写在前面
我们都知道,免费代理网站的代理质量都不高,主要体现在,比如代理A前一秒可用,后一秒可能就用不了了。所以如果你爬取的代理池,和用这些代理访问目标网站之间的时间过长,这些代理很可能就用不了。所以我就想了一个办法,能不能用多进程一边获取代理,一边用这些代理爬虫,提高代理的利用率。
主要用到的库和知识点
requests库
fake_useragent库,伪造浏览器访问代理网站,因为怕被代理网站封了我的IP
telnetlib库,测试一个代理
原创
2020-06-26 17:12:29 ·
240 阅读 ·
0 评论