【小盐巴学习笔记】—用Python批量爬取优质ip代理

最新推荐文章于 2021-08-01 18:43:31 发布

热爱学习的小盐巴

最新推荐文章于 2021-08-01 18:43:31 发布

阅读量512

点赞数 1

分类专栏：爬虫实战练习文章标签： python 爬虫

本文链接：https://blog.csdn.net/qq_45459248/article/details/111307407

版权

本文介绍了如何使用Python进行爬虫，通过云代理获取大量IP，通过检测排除不可用的代理，保留高质量的代理IP。文章详细分析了网址结构和数据解析，并提供了完整的爬虫代码示例。

摘要由CSDN通过智能技术生成

前言

有时候爬的次数太多时ip容易被禁，所以需要ip代理的帮助。
今天爬的思路是：到云代理获取大量ip代理，逐个检测，将超时不可用的代理排除，留下优质的ip代理。

首先看看今天要爬取的网址

http://www.ip3366.net/free/

首先判断网址是动态网址还是静态网址，静态网址就是直接能通过翻页从网址里找到页码，以下是每页的网址：

http://www.ip3366.net/free/?stype=1&page=2
http://www.ip3366.net/free/?stype=1&page=3
http://www.ip3366.net/free/?stype=1&page=4

所以推出是静态网址，每页page递增1的规律

今天打算用xpath来解析数据，首先打开F12，可以看到每条代理的信息都包裹在tr中，因此我们可以先通过tr获取全部信息，再遍历tr里的ip，端口和类型
在这里插入图片描述

附上完整代码和详细注释

import requests
from lxml import etree
# 5.检测ip质量
def check_ip(proxies_list):
    headers = {

关注

专栏目录