最近一周一直在帮家里小弟看高考志愿,所以更新的没那么频繁了,请大家见谅。
在看各高校的往年分数时,忍不住手痒,想着能不能给它爬下来?哈哈,说干就干!
1 流程分析
之前无意中在这个网站发现有各个高校的历年录取分数线:https://gkcx.eol.cn。
我们的目标是用 Python 将下面页面的数据导出到 Excel:
这个页面的 URL 是:https://gkcx.eol.cn/schoolhtm/schoolTemple/school160.htm,显然是需要一个 school_id 拼接而成的,那么如何获取这个 school_id 呢?
除非想办法爬取到所有院校的 school_id,这里我想着是从上面图中的搜索框进入:
这样,整体的业务流程我们就理清楚了:
先调用搜索的 URL 获取到高校的 school_id,拼接到高校的详情访问地址
访问详情地址,抓取目标数据
处理目标数据,存储到 Excel 中