该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
尽管知道免费代理IP有效率并不怎么好,但毕竟是天上掉下来的馅饼。还是有很多人去爬取免费代理IP用来做爬虫的,不过也得减缓爬取速度,避免影响人家网站的正常运行。
那么问题来了,如何抓取免费代理IP呢?又如何多线程验证代理IP是否有效呢?
一、抓取代理IP
首先找一个提供免费代理IP的网站,这个网上有很多,这里就不举例说明了。
import urllib.request
import urllib
import re
import time
import random
#抓取代理IP
ip_totle=[] #所有页面的内容列表
for page in range(2,6):
url='http:http://www.***.com/***/'+str(page)
headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64)"}
request=urllib.request.Request(url=url,headers=headers)
response=urllib.request.urlopen(request)
content=response.read().decode('utf-8')
print('get page',page)
pattern=re.compile('
(\d.*?)') #截取与之间第一个数为数字的内容ip_page=re