要考试了,通过爬虫获取试题,最后再看2小时

本文作者在考试前夕尝试通过爬虫获取历年试题,使用requests和lxml库处理不规范HTML,借助selenium获取源代码。简化的流程包括:获取试卷种类和科目地址,发起请求并保存内容。提醒读者注意爬虫的合法和道德使用。
摘要由CSDN通过智能技术生成

需求分析 

前情回顾:写这篇文章的那天正好是6月6日,考试的前一天。那个时候,我原本是希望能够通过爬虫获取往年试题用于回顾的,不过由于当天某些缘故,连续6次没有通过,所以很多内容被删减了。这段内容为后期重新补充的

首先,需要获取到所有试卷种类的地址,然后获取到所有科目的地址,然后再次对所有的科目发起请求,进入到详情页中,取得所需的内容

主要使用到了requests发起请求,lxml提取数据,以及文件读写进行保存。期间使用了一次selenium获取源代码,主要是由于其html的代码不是很规范,想要获取有一些麻烦。因此使用了selenium进行了一次补全。其实本来可以不需要使用的

实现分析

首先要请求外部的页面,获取所有地址

# 请求试卷的分类和地址
url = "地址" 
r = requests.get(url)

提取该页面中的数据,记录对应的信息,并创建用于保存文件内容的文件夹

test = html.xpath("//div[@class='test']")
for i in test:
    xueke = i.xpath(".//div[@class='word-xueke']/text()")

    # 记录对应的内容以及地址
    d = dict()
    for k in range(len(xueke)):
        d[xueke[k]] = i.xpath(".//div[@class='xueke-a
  • 11
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值