前言
有时候爬的次数太多时ip容易被禁,所以需要ip代理的帮助。
今天爬的思路是:到云代理获取大量ip代理,逐个检测,将超时不可用的代理排除,留下优质的ip代理。
一、爬虫分析
首先看看今天要爬取的网址
http://www.ip3366.net/free/
1.分析网址
首先判断网址是动态网址还是静态网址,静态网址就是直接能通过翻页从网址里找到页码,以下是每页的网址:
http://www.ip3366.net/free/?stype=1&page=2
http://www.ip3366.net/free/?stype=1&page=3
http://www.ip3366.net/free/?stype=1&page=4
所以推出是静态网址,每页page递增1的规律
2.分析数据
今天打算用xpath来解析数据,首先打开F12,可以看到每条代理的信息都包裹在tr中,因此我们可以先通过tr获取全部信息,再遍历tr里的ip,端口和类型
二、完整代码
附上完整代码和详细注释
import requests
from lxml import etree
# 5.检测ip质量
def check_ip(proxies_list):
headers = {