要考试了，通过爬虫获取试题，最后再看2小时

仙草哥哥

已于 2022-06-10 07:25:30 修改

阅读量2.6k

点赞数 11

文章标签：爬虫 python

于 2022-06-06 18:54:04 首次发布

本文链接：https://blog.csdn.net/sagegrass/article/details/125151976

版权

本文作者在考试前夕尝试通过爬虫获取历年试题，使用requests和lxml库处理不规范HTML，借助selenium获取源代码。简化的流程包括：获取试卷种类和科目地址，发起请求并保存内容。提醒读者注意爬虫的合法和道德使用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

需求分析

前情回顾：写这篇文章的那天正好是6月6日，考试的前一天。那个时候，我原本是希望能够通过爬虫获取往年试题用于回顾的，不过由于当天某些缘故，连续6次没有通过，所以很多内容被删减了。这段内容为后期重新补充的

首先，需要获取到所有试卷种类的地址，然后获取到所有科目的地址，然后再次对所有的科目发起请求，进入到详情页中，取得所需的内容

主要使用到了requests发起请求，lxml提取数据，以及文件读写进行保存。期间使用了一次selenium获取源代码，主要是由于其html的代码不是很规范，想要获取有一些麻烦。因此使用了selenium进行了一次补全。其实本来可以不需要使用的

实现分析

首先要请求外部的页面，获取所有地址

# 请求试卷的分类和地址
url = "地址" 
r = requests.get(url)

提取该页面中的数据，记录对应的信息，并创建用于保存文件内容的文件夹

test = html.xpath("//div[@class='test']")
for i in test:
    xueke = i.xpath(".//div[@class='word-xueke']/text()")

    # 记录对应的内容以及地址
    d = dict()
    for k in range(len(xueke)):
        d[xueke[k]] = i.xpath(".//div[@class='xueke-a