【小盐巴学习笔记】—用Python批量爬取优质ip代理

本文介绍了如何使用Python进行爬虫,通过云代理获取大量IP,通过检测排除不可用的代理,保留高质量的代理IP。文章详细分析了网址结构和数据解析,并提供了完整的爬虫代码示例。
摘要由CSDN通过智能技术生成

前言

有时候爬的次数太多时ip容易被禁,所以需要ip代理的帮助。
今天爬的思路是:到云代理获取大量ip代理,逐个检测,将超时不可用的代理排除,留下优质的ip代理。

一、爬虫分析

首先看看今天要爬取的网址

http://www.ip3366.net/free/

1.分析网址

首先判断网址是动态网址还是静态网址,静态网址就是直接能通过翻页从网址里找到页码,以下是每页的网址:

http://www.ip3366.net/free/?stype=1&page=2
http://www.ip3366.net/free/?stype=1&page=3
http://www.ip3366.net/free/?stype=1&page=4

所以推出是静态网址,每页page递增1的规律

2.分析数据

今天打算用xpath来解析数据,首先打开F12,可以看到每条代理的信息都包裹在tr中,因此我们可以先通过tr获取全部信息,再遍历tr里的ip,端口和类型
在这里插入图片描述

二、完整代码

附上完整代码和详细注释

import requests
from lxml import etree
# 5.检测ip质量
def check_ip(proxies_list):
    headers = {
   
  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值