【python案例】获取IP代理数据,筛选出符合需求的IP

前言

嗨喽,大家好呀~这里是爱看美女的茜茜呐

我们为什么要IP代理呢?

当采集数据, 批量采集数据, 请求速度过快, 网站可能会把你IP封掉 <你的网络进不去这个网站>

IP代理换一个IP, 再去采集请求数据

开发环境:

  • 解释器版本: python 3.8

  • 代码编辑器: pycharm 2021.2

第三方模块使用:

  • import requests —> 数据请求模块<工具>

  • import parsel —> 解析数据模块

第三方模块安装:

  1. win + R 输入 cmd 点击确定, 输入安装命令 pip install 模块名 (pip install requests) 回车

  2. 在pycharm中点击Terminal(终端) 输入安装命令

可能安装失败原因:出现大量报红 (read time out)

解决方法: 因为是网络链接超时, 需要切换镜像源

可使用镜像源例举:

  1. 清华:https://pypi.tuna.tsinghua.edu.cn/simple

  2. 中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/

  3. 华中理工大学:https://pypi.hustunique.com/

  4. 山东理工大学:https://pypi.sdutlinux.org/

例如:pip3 install -i https://pypi.tuna.tsinghua.edu.cn/simple/ 模块名


👇 👇 👇 更多精彩机密、教程,尽在下方,赶紧点击了解吧~

素材、视频、完整代码、插件安装教程我都准备好了,直接在文末名片自取就可


思路分析

一. 抓包分析数据来源

  1. 明确需求:

    • 确定采集网站以及采集数据是什么

      获取IP代理, 检测IP代理是否可用

       dit = {
           'http': 'http://' + IP:端口
       }
      
  2. 分析IP和端口号 这两个数据, 请求那个网站可以得到?

    抓包分析数据所在url地址 --> 开发者工具进行抓包分析

    • F12 或者 右键点击检查选择network 刷新网页

      为了让网页数据内容重新加载一遍

    • 分析数据在哪里 --> 通过关键字<我们想要数据>搜索数据来源

二. 代码实现步骤过程

  1. 发送请求, 模拟浏览器对于url地址发送请求

  2. 获取数据, 获取服务器返回响应数据

    开发者工具 --> response

  3. 解析数据, 提取我们想要数据内容

    IP 端口

  4. 保存数据, 把可用IP代理保存本地

    IP代理检测, 检测可用之后, 保存IP代理

代码展示

import requests
# 导入re正则 内置模块 不需要安装
import re
import parsel

use_list = []
all_list = []
for page in range(1, 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值