前言
嗨喽,大家好呀~这里是爱看美女的茜茜呐
我们为什么要IP代理呢?
当采集数据, 批量采集数据, 请求速度过快, 网站可能会把你IP封掉 <你的网络进不去这个网站>
IP代理换一个IP, 再去采集请求数据
开发环境:
-
解释器版本: python 3.8
-
代码编辑器: pycharm 2021.2
第三方模块使用:
-
import requests —> 数据请求模块<工具>
-
import parsel —> 解析数据模块
第三方模块安装:
-
win + R 输入 cmd 点击确定, 输入安装命令 pip install 模块名 (pip install requests) 回车
-
在pycharm中点击Terminal(终端) 输入安装命令
可能安装失败原因:出现大量报红 (read time out)
解决方法: 因为是网络链接超时, 需要切换镜像源
可使用镜像源例举:
-
清华:https://pypi.tuna.tsinghua.edu.cn/simple
-
中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/
-
华中理工大学:https://pypi.hustunique.com/
-
山东理工大学:https://pypi.sdutlinux.org/
例如:pip3 install -i https://pypi.tuna.tsinghua.edu.cn/simple/ 模块名
👇 👇 👇 更多精彩机密、教程,尽在下方,赶紧点击了解吧~
素材、视频、完整代码、插件安装教程我都准备好了,直接在文末名片自取就可
思路分析
一. 抓包分析数据来源
-
明确需求:
-
确定采集网站以及采集数据是什么
获取IP代理, 检测IP代理是否可用
dit = { 'http': 'http://' + IP:端口 }
-
-
分析IP和端口号 这两个数据, 请求那个网站可以得到?
抓包分析数据所在url地址 --> 开发者工具进行抓包分析
-
F12 或者 右键点击检查选择network 刷新网页
为了让网页数据内容重新加载一遍
-
分析数据在哪里 --> 通过关键字<我们想要数据>搜索数据来源
-
二. 代码实现步骤过程
-
发送请求, 模拟浏览器对于url地址发送请求
-
获取数据, 获取服务器返回响应数据
开发者工具 --> response
-
解析数据, 提取我们想要数据内容
IP 端口
-
保存数据, 把可用IP代理保存本地
IP代理检测, 检测可用之后, 保存IP代理
代码展示
import requests
# 导入re正则 内置模块 不需要安装
import re
import parsel
use_list = []
all_list = []
for page in range(1,