澄澄澄！-CSDN博客

原创 Scrapy爬虫：网校题库数据采集与处理

注：可以通过replace：href=href.replace("TestPaper","exampoint")，直接拿到考点练习页面的URL，减少点击次数。将题目文本中的“在线图片 URL”替换为“本地图片路径”，这样打开 Markdown 文件时就能直接显示本地图片，无需联网。注（利用XPath 的ancestors向上查找当前节点的所有符合条件的祖先节点，补全路径层级）同时为了防止考点中有非法字符等，设置函数处理非法字段，防止代码报错。注：仅需去掉测试用的break就可以抓取整个网站的考点数据！

2026-03-17 11:42:24 546

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人