【python案例】获取IP代理数据，筛选出符合需求的IP

最新推荐文章于 2024-07-25 16:46:24 发布

茜茜是帅哥

最新推荐文章于 2024-07-25 16:46:24 发布

阅读量674

点赞数

分类专栏： python爬虫文章标签： python tcp/ip 开发语言 pycharm

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_72282564/article/details/130848145

版权

前言

嗨喽，大家好呀~这里是爱看美女的茜茜呐

我们为什么要IP代理呢？

当采集数据, 批量采集数据, 请求速度过快, 网站可能会把你IP封掉 <你的网络进不去这个网站>

IP代理换一个IP, 再去采集请求数据

开发环境:

解释器版本: python 3.8
代码编辑器: pycharm 2021.2

第三方模块使用:

import requests —> 数据请求模块<工具>
import parsel —> 解析数据模块

第三方模块安装：

win + R 输入 cmd 点击确定, 输入安装命令 pip install 模块名 (pip install requests) 回车
在pycharm中点击Terminal(终端) 输入安装命令

可能安装失败原因：出现大量报红 (read time out)

解决方法: 因为是网络链接超时, 需要切换镜像源

可使用镜像源例举：

清华：https://pypi.tuna.tsinghua.edu.cn/simple
中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/
华中理工大学：https://pypi.hustunique.com/
山东理工大学：https://pypi.sdutlinux.org/

例如：pip3 install -i https://pypi.tuna.tsinghua.edu.cn/simple/ 模块名

👇 👇 👇 更多精彩机密、教程，尽在下方，赶紧点击了解吧~

素材、视频、完整代码、插件安装教程我都准备好了，直接在文末名片自取就可

思路分析

一. 抓包分析数据来源

明确需求:
- 确定采集网站以及采集数据是什么
  
  获取IP代理, 检测IP代理是否可用
```
 dit = {
     'http': 'http://' + IP:端口
 }
```
分析IP和端口号这两个数据, 请求那个网站可以得到?

抓包分析数据所在url地址 --> 开发者工具进行抓包分析
- F12 或者右键点击检查选择network 刷新网页
  
  为了让网页数据内容重新加载一遍
- 分析数据在哪里 --> 通过关键字<我们想要数据>搜索数据来源

二. 代码实现步骤过程

发送请求, 模拟浏览器对于url地址发送请求
获取数据, 获取服务器返回响应数据

开发者工具 --> response
解析数据, 提取我们想要数据内容

IP 端口
保存数据, 把可用IP代理保存本地

IP代理检测, 检测可用之后, 保存IP代理

代码展示

import requests
# 导入re正则 内置模块 不需要安装
import re
import parsel

use_list = []
all_list = []
for page in range(1,

最低0.47元/天解锁文章

茜茜是帅哥

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。