解决防爬虫机制方法(二)

本文介绍了在完成学校大数据作业时,如何应对含有防爬机制的网站,重点讲述了通过抓包技术处理异步处理的网页,以及使用Python的haralyzer库解析HAR文件获取所需URL地址的方法。这些技巧对初级爬虫者有一定参考价值。
摘要由CSDN通过智能技术生成

最近为了完成学校的大数据的作业,老师要我们爬一个的网站,里面有还算不错的防爬机制,忙活了几天,总结出一些常见的防爬机制的应对方法,方法均来自个人实战总结,非专业爬虫角度分析

承接上一次讲的方法解决防爬虫机制方法(一)-CSDN博客

3. 学会抓包

其实这个不算是防爬虫机制的方法了,主要是网站基于异步处理,就是点击了其他种类但是url并没有跳转,标签页如图下所示:

 

一般很多网页都是基于页码或者是同页面下通过转url来进行页面跳转,如果遇到这种以上这种情况也算是防爬虫的一个小手段了吧,一般每种病都是有一个编号的,但是通过控制台无法找到一个文件包含了所有疾病对应的编号 

通过搜索对应编号只有自己的url包出现,通过点击其他类型疾病后这个包还会继续保留,

然后我的做法是通过筛选出url包获取,然后将每个种类都点击一下,这样就会抓到每个类型里面全部的包,然后通过筛选如图下所示:

通过对应的导出键就可以将所有的抓包全部导出来了

 

后面则可以通过python里的haralyzer来解析包,但是里面的url地址挺多的,自己可以通过筛选出自己想要的url地址

演示代码如下所示

import json
from haralyzer import HarParser

# 用你的HAR文件路径替换下面的路径
har_file_path = 'drugs.dxy.cn.har'
# 读取HAR文件
with open(har_file_path, 'r', encoding='utf-8') as file:
    har_content = file.read()

# 将HAR文件内容转换为字典
har_dict = json.loads(har_content)

# 创建HarParser对象
har_parser = HarParser(har_dict)

# 解析HAR文件
har_data = har_parser.har_data
# print(har_data)
# 获取请求列表
# print("Keys in har_data:", har_data.keys())
# Keys in har_data: dict_keys(['version', 'creator', 'pages', 'entries'])
entries = har_data['entries']
# 打印请求的详细信息
urls = []
if entries:
    for i in range(len(entries)):
        first_entry = entries[i]
        print("Request URL:", first_entry['request']['url'])
        print("Request Method:", first_entry['request']['method'])
        print("Response Status:", first_entry['response']['status'])
        print("Response Content Type:", first_entry['response']['content']['mimeType'])
else:
    print("No entries found in the HAR file.")
print(urls[-8])

这些方法还是比较适用于一些比较简单的爬取,如果是大佬级别或者是长时间爬取的仅供参考

希望这篇博客对你有帮助!!!!!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值