西刺ip代理采集和ip测试-国内免费高匿版本

最新推荐文章于 2022-10-18 18:07:12 发布

Mr.Shawn

最新推荐文章于 2022-10-18 18:07:12 发布

阅读量2.3k

点赞数

分类专栏：爬虫加密

本文链接：https://blog.csdn.net/shawn_fung/article/details/89153234

版权

本文介绍了使用Python通过XPath和BeautifulSoup从西刺网站抓取免费高匿名代理IP，并进行有效性测试，将可用IP保存至文件的方法。首先，利用requests和lxml库获取并解析网页，提取IP、端口、匿名级别和类型信息。然后，通过requests发送请求，检查IP是否能成功访问百度，将可用IP写入新的CSV文件。

摘要由CSDN通过智能技术生成

采集程序
熟悉xpath和bs4的用法

coding:utf-8
import time
import requests
from bs4 import BeautifulSoup
from fake_useragent import UserAgent #这是一个随机返回一个UA头的模块
from lxml import etree

ua = UserAgent()
headers = {
#‘User-Agent’: ‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36’
‘User-Agent’:ua.random
}
for i in range(1,2):
time.sleep(1)
#print(‘第’ + str(i) + ‘页’)
url = ‘https://www.xicidaili.com/nn/’ + str(i)
response = requests.get(url=url, headers=headers)
‘’’
res = etree.HTML(response.text)
trs = res.xpath(’//div[@class=“clearfix proxies”]/table[@id=“ip_list”]’)
for tr in trs:
ips = tr.xpath(’./tr/td[2]/text()’) # 一个ip列表
ports = tr.xpath

最低0.47元/天解锁文章

Mr.Shawn

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
西刺ip代理采集和ip测试-国内免费高匿版本

采集程序熟悉xpath和bs4的用法coding:utf-8import timeimport requestsfrom bs4 import BeautifulSoupfrom fake_useragent import UserAgent #这是一个随机返回一个UA头的模块from lxml import etreeua = UserAgent()headers = {...
复制链接

扫一扫

专栏目录