使用爬虫抓取数据时,经常要用到多个ip代理,防止单个ip访问太过频繁被封禁。
ip代理可以从这个网站获取:http://www.xicidaili.com/nn/。
因此写一个python程序来获取ip代理,保存到本地。
python版本:3.6.3
1 #grab ip proxies from xicidaili 2 import sys, time, re, requests 3 from multiprocessing.dummy import Pool as ThreadPool 4 from lxml import etree 5 6 IP_POOL = 'ip_pool.py' 7 URL = 'http://www.xicidaili.com/nn/' #IP代理 高匿 8 #URL = 'http://www.xicidaili.com/wt/' #IP代理 http 9 RUN_TIME = time.strftime("%Y-%m-%d %H:%M