rfgh

最新推荐文章于 2024-08-07 11:15:21 发布

m0_54795656

最新推荐文章于 2024-08-07 11:15:21 发布

阅读量315

点赞数

文章标签： java

本文链接：https://blog.csdn.net/m0_54795656/article/details/112994636

版权

该脚本使用Python的requests和lxml库，通过for循环实现对网页的分页抓取，从指定网站获取免费代理IP，并通过请求百度验证其有效性。有效IP将被写入文本文件中，无效IP则打印出来。此脚本适用于需要大量代理IP的网络爬虫项目。

摘要由CSDN通过智能技术生成

脚本代码：
#!/user/bin/

-- coding:UTF-8 --

Author:Master

#导入模块
import requests
from lxml import etree

#for循环实现分页处理
for page in range(1,1000):
#请求地址
url = f’https://www.kuaidaili.com/free/inha/{page}/’
#UA伪装
header = {
“User-Agent”: “Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36”
}
#保存的文件名
name = ‘proxy_ip.txt’
#返回请求包
page_text = requests.get(url=url,headers=header).text
#构造了一个XPath解析对象并对HTML文本进行自动修正
tree = etree.HTML(page_text)
#使用xpath定位ip所在的tr标签并生成所有tr标签列表
tr_list = tree.xpath(’//*[@id=“list”]/table/tbody/tr’)
#遍历tr标签
for td in tr_list:
#定位ip内容
ip = td.xpath(’./td[1]/text()’)[0]
#定位端口内容
port = td.xpath(’./td[2]/text()’)[0]
#拼接完整的ip
all_ip = ip+’:’+port
#测试代理ip的有效性
try:
#request使用代理ip发送get请求测试代理有效性
requests.get(‘https://www.baidu.com/’, proxies={“http”: f"‘http://’+{all_ip}"})
except:
#输出无效代理ip
print(all_ip+‘代理无效!’)
else:
#代理ip有效存实现持久化存储
with open(name,‘a’,encoding=‘utf-8’) as fp:
fp.write(all_ip+’\n’)
#输出爬取完成页数
print(f’第{page}页爬取结束.’)

m0_54795656

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
rfgh

脚本代码：#!/user/bin/-- coding:UTF-8 --Author:Master#导入模块import requestsfrom lxml import etree#for循环实现分页处理for page in range(1,1000):#请求地址url = f’https://www.kuaidaili.com/free/inha/{page}/’#UA伪装header = {“User-Agent”: “Mozilla/5.0 (Macintosh; Inte
复制链接

扫一扫