![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
para_Arya
Rules and Fairness should never be violated.
展开
-
python爬虫step1:selenium
临时被上司安排做爬虫,由于是小白,一路bug层出不穷,几天折腾下来,终于算是稍稍入了门,立个flag。 Step1:Python爬虫包的选择,刚开始是用的urllib,接口调用很简单,但很鸡肋: import urllib2 import urllib headers = {'User-Agent': 'User-Agent:Mozilla/5.0 (iPhone; CPU iPho原创 2017-06-28 18:11:39 · 326 阅读 · 0 评论 -
Python爬虫Step2:threading(多线程)
快速爬取大量数据,且减少ip被封的窍门有: 1、多代理ip,多线程 2、设置随机网页访问间隔 百度到一个很好的threading多线程的blog: http://www.cnblogs.com/tkqasn/p/5700281.html 这个真的讲得特详细,很受用 多线程验证ip可用:def validIpList() global ipTrueList ipTrueLi原创 2017-06-30 10:21:44 · 288 阅读 · 0 评论