Python批量爬取代理ip，并自动插入到Excel表格

最新推荐文章于 2023-02-11 09:16:38 发布

酱油鸭

最新推荐文章于 2023-02-11 09:16:38 发布

阅读量384

点赞数

分类专栏：自动化测试学习

本文链接：https://blog.csdn.net/daring0609/article/details/109366135

版权

思路：

以“http://www.66ip.cn/”网址为例，使用requests访问，通过xpath解析相关标签数据，将数据以列表的形式提取出来组成新的列表，然后再插入表格。然后再通过每页跳转时URL的变化规律进行URL重组后，进行循环访问爬取。

推荐安装xpath插件，直接将相关标签的数据xpath路径复制即可查看变化，如下图：
在这里插入图片描述
附上完整代码：

import requests
from lxml import etree
import pandas as pd
import json

#需要爬取的网址
#base_url = "http://www.66ip.cn/"
#定义存放所有页面URL的列表
all_urls = []
#以10页为例，根据规律拼写每页的URL，变化的只是数字，所以使用format函数来实现数字传参
for i in range(1,11):
    create_url = 'http://www.66ip.cn/{}.html'

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

酱油鸭

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Python批量爬取代理ip，并自动插入到Excel表格

思路：以“http://www.66ip.cn/”网址为例，使用requests访问，通过xpath解析相关标签数据，将数据以列表的形式提取出来组成新的列表，然后再插入表格。然后再通过每页跳转时URL的变化规律进行URL重组后，进行循环访问爬取。推荐安装xpath插件，直接将相关标签的数据xpath路径复制即可查看变化，如下图：附上完整代码：import requestsfrom lxml import etreeimport pandas as pdimport json#需要爬取的网
复制链接

扫一扫