Python爬虫实战（二）：爬取快代理构建代理IP池

最新推荐文章于 2024-08-30 17:49:34 发布

前端漫画书

最新推荐文章于 2024-08-30 17:49:34 发布

阅读量877

点赞数 7

分类专栏： 2024年程序员学习文章标签： python 爬虫 tcp/ip

本文链接：https://blog.csdn.net/m0_61549353/article/details/137659503

版权

2024年程序员学习专栏收录该内容

262 篇文章 0 订阅

订阅专栏

目前网上有很多的代理服务网站提供代理服务，也提供一些免费的代理，但可用性较差，如果需求较高可以购买付费代理，可用性较好。当然我们也可以自己构建代理池，从各种代理服务网站中免费获取代理 IP，并检测其可用性（去访问百度），再保存到文件中，需要使用的时候再调用。

在这里插入图片描述

爬取目标

======================================================================

我们要爬取的网页是：https://www.kuaidaili.com/free/inha/

红色框就是我们要爬取的内容：

在这里插入图片描述

博主爬取最后实现的效果如下：

在这里插入图片描述

准备工作

======================================================================

我用的是python3.8，VScode编辑器，所需的库有：requests、etree、time

开头导入所需用到的导入的库：

import requests # python基础爬虫库

from lxml import etree # 可以将网页转换为Elements对象

import time # 防止爬取过快可以睡眠一秒

准备就绪开始代码分析！

代码分析

======================================================================

在这里插入图片描述

先讲讲我的整体思路在逐步分析：

第一步：构造主页url地址，发送请求获取响应
第二步：解析数据，将数据分组
第三步：将数组的数据提取出来
第四步：检测代理IP的可用性
第五步：保存到文件中

第一步

构造主页的url地址，发送请求获取响应

1.发送请求，获取响应

def send_request(self,page):

print(“===正在抓取第{}页=”.format(page))

目标网页，添加headers参数

base_url = ‘https://www.kuaidaili.com/free/inha/{}/’.format(page)

headers = {‘User-Agent’: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36’}

发送请求：模拟浏览器发送请求，获取响应数据

response = requests.get(base_url,headers=headers)

data = response.content.decode()

time.sleep(1)

return data

这会就有小伙伴不明白了，你headers什么意思啊？

防止服务器把我们认出来是爬虫，所以模拟浏览器头部信息，向服务器发送消息
这个 “装” 肯定必须是要装的！！！

在这里插入图片描述

第二步

解析数据，将数据分组

从下图可以看出，我们需要的数据都在tr标签中：

在这里插入图片描述

所以分组取到tr标签下：

2.解析数据

def parse_data(self,data):

数据转换

html_data = etree.HTML(data)

分组数据

parse_list = html_data.xpath(‘//table[@class=“table table-bordered table-striped”]/tbody/tr’)

return parse_list

第三步

提取分组中我们需要的数据，IP，类型和端口号

parse_list = self.parse_data(data)

for tr in parse_list:

proxies_dict = {}

http_type = tr.xpath(‘./td[4]/text()’)

ip_num = tr.xpath(‘./td[1]/text()’)

port_num = tr.xpath(‘./td[2]/text()’)

http_type = ’ '.join(http_type)

ip_num = ’ '.join(ip_num)

port_num = ’ '.join(port_num)

proxies_dict[http_type] = ip_num + “:” + port_num

proxies_list.append(proxies_dict)

这里做了拼接，{'HTTP': '36.111.187.154:8888'}这种形式存入列表，方便我们使用！

在这里插入图片描述

第四步

检测IP的可用性，因为是免费的IP所以有一些可能用不了，有一些访问速度较慢，这里我们让拼接好的ip去访问某度0.1秒能访问成功的保存在另一个列表中！

def check_ip(self,proxies_list):

headers = {‘User-Agent’: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36’}

can_use = []

for proxies in proxies_list:

try:

response = requests.get(‘https://www.baidu.com/’,headers=headers,proxies=proxies,timeout=0.1)

if response.status_code == 200:

can_use.append(proxies)

except Exception as e:

print(e)

return can_use

在这里插入图片描述

第五步

将访问速度不错的ip保存在文件中，方便我们调用

def save(self,can_use):

file = open(‘IP.txt’, ‘w’)

for i in range(len(can_use)):

s = str(can_use[i])+ ‘\n’

file.write(s)

file.close()

完整代码

import requests

from lxml import etree

import time

class daili:

1.发送请求，获取响应

def send_request(self,page):

print(“===正在抓取第{}页=”.format(page))

目标网页，添加headers参数

base_url = ‘https://www.kuaidaili.com/free/inha/{}/’.format(page)

headers = {‘User-Agent’: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36’}

发送请求：模拟浏览器发送请求，获取响应数据

response = requests.get(base_url,headers=headers)

data = response.content.decode()

time.sleep(1)

return data

2.解析数据

def parse_data(self,data):

数据转换

html_data = etree.HTML(data)

分组数据

parse_list = html_data.xpath(‘//table[@class=“table table-bordered table-striped”]/tbody/tr’)

return parse_list

4.检测代理IP

def check_ip(self,proxies_list):

headers = {‘User-Agent’: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36’}

can_use = []

for proxies in proxies_list:

try:

response = requests.get(‘https://www.baidu.com/’,headers=headers,proxies=proxies,timeout=0.1)

if response.status_code == 200:

can_use.append(proxies)

except Exception as e:

print(e)

return can_use

5.保存到文件

def save(self,can_use):

file = open(‘IP.txt’, ‘w’)

for i in range(len(can_use)):

s = str(can_use[i])+ ‘\n’

file.write(s)

file.close()

实现主要逻辑

def run(self):

proxies_list = []

实现翻页，我这里只爬取了四页（可以修改5所在的数字）

for page in range(1,5):

data = self.send_request(page)

自我介绍一下，小编13年上海交大毕业，曾经在小公司待过，也去过华为、OPPO等大厂，18年进入阿里一直到现在。

深知大多数Python工程师，想要提升技能，往往是自己摸索成长或者是报班学习，但对于培训机构动则几千的学费，着实压力不小。自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年Python开发全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友，同时减轻大家的负担。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，基本涵盖了95%以上Python开发知识点，真正体系化！

由于文件比较大，这里只是将部分目录大纲截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频，并且后续会持续更新

如果你觉得这些内容对你有帮助，可以添加V获取：vip1024c （备注Python）

og.csdnimg.cn/img_convert/252731a671c1fb70aad5355a2c5eeff0.png)

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，基本涵盖了95%以上Python开发知识点，真正体系化！

如果你觉得这些内容对你有帮助，可以添加V获取：vip1024c （备注Python）
[外链图片转存中…(img-AiWA5ga1-1712857444868)]

前端漫画书

关注

7
点赞
踩
30

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录