python写爬虫思路_这次我们用Python编程做点有意思的事:Python爬虫分析高考分数线...

导读:又是一年高考季,虽然今年时间延后了,但高考以及填报志愿这些事还是跑不掉。

想想当年填报志愿时,你是否非常纠结分数线的问题,大量的分数线、录取线数据,很容易让我们感到困惑。

现在,我们可以利用Python,把想报考学校的历年分数线,以及一本、二本线的分数走势,通过图表展示出来,方便我们分析和比较!

7afe0a15e9a54b0989cb5ea6d65120e6

一、Python爬取分数线的基本思路思路

确定爬取的目标站点(找网站)

分析页面结构(找数据)

制定爬取流程(定义爬虫规则)

Python编码

二、高校分数线查询

1、确定目标

首先,需要明确自己的目标。举个例子,像这个分数线查询,目标就是:

输入input: 省市区名称,高校名称,文理科数据data: 该学校/该科在该省区的历年录取最低分数线,省控线输出output: 可视化图表

然后再确定需要爬取的目标站点。通过搜索引擎查询,我们可以发现很多站点都提供分数线/高校情况的查询,我们需要根据自己的需求寻找合适自己的站点。像有些站点的数据不是很全,有些学校的信息查询不到,所以我们这里选择爬取的网站是 高考志愿填报服务平台(这里仅作举例,其他网站还有很多)。

229b137325d842ef8c88e61d2e153ac3

2、分析网站页面数据

01.学校ID

以武汉理工大学为例子。通过该站点查询历年分数线,可以得到如下结果:

5d9c1dccaeec4a08bc662bea49d60b0e

该页面的地址如下:

bbd27b96b0324e0cb9bfcc00f048b9c7

通过分析该URL可以发现,在该站点上查询某个学校的具体信息,需要获取到该

学校的ID,也就是URL中的那个数字(128)

但是这个数字是怎么得来的呢?我们接下来再深入研究一下。

我们先来到查询学校的页面,如下:

0f14f3771ed740b5ac17de54b9ffaf9a

在输入框中输入武汉理工大学后,点击查询。然后你会发现URL变了,这个一目了然,是通过GET请求方式,向服务器发送需要查询的学校名称。

? 后是参数,& 分割多个参数

但是除了keyWord1这个参数有值,其他的参数都没有值,因为过滤条件我们一个都没有选择,所以参数为空。我们尝试着把其他不需要的参数去掉然后回车,发现也可以查询到结果。

这里还是没有学校的编号啊?这里要祭出程序员的大杀器了,开发者工具。以chrome浏览器为例(新版的edge浏览器也是基于chromium内核),在该页面下按

F12或者Ctrl+Shift+I

c8c489e1f02e483ab2acb85f003308c9

调出开发者工具,如下:

d4657dba07d94bd58641ccbf41dddf9e

如果你的工具页面不是全屏,也不影响,通过如下图所示设置可以将开发者工具全屏显示:

点击竖形排列的三个小点

点击层叠的小按钮

47f96e612c2b424ab98ae789cf7945ab

Network

的tab下,你会看到,这个页面的显示,浏览器帮我们发了很多个http请求出去(上面的例子中一共发送了93个请求,在左下角显示)。下图中

3

标记的请求,则正是我们的主要的请求。

9dbb1bd04c4e412b88f618725a67fc7b

你会发现怎么查询的武汉理工大学,变成了乱码?这里涉及到编码的问题,我们暂且忽略它。

然而请求太多了,看不过来。你可以尝试把过滤选项换成XHR,如下:

b62a51b81f3a4986ab88a55ec9d709f5

有一个请求很长,我们尝试点击一下,看下它是做什么的。在右侧

General下的Request URL

中,这个请求是向**https://api.eol.cn/**发出的。并且中间也有个keyword,也有一串中文,根据前文中观察的地址,我们可以确定它就是我们查询学校ID的请求。我们把它复制出来,粘贴在浏览器中直接访问:

ece53127c3de46f5894628fc91a82c6c

BINGO!!!

果然,我们获取到学校的ID了。我们可以把这个请求的多余参数去掉,精简一下。通过笔者实测,获取学校ID的最简URL是:

https://api.eol.cn/gkcx/api/?keyword=%s&uri=

apigkcx/api/school/hotlists

, %s代表你要查询的学校名称。

解决学校的ID的问题,你就成功一小半了。我们继续。

02.省控线

我们需要知道,每个省市都有一个省控线,例如一本线,二本线之类的。学校在该省区以几类本科招生,我们需要超过省控线多少分才有可能进该学校?这个问题则是本demo的初衷。废话不多说。我们来获取省控线。参考上面获取学校编号的思路,我们找到了查询省控线的URL,如下:

https://api.eol.cn/gkcx/api/?page=1&province_id=%d&size=20&uri=apidata/api/gk/score/proprovince&year=%d

这里有两个参数,一个是省的IDprovince_id, 一个是年分year。省ID通过笔者分析,如下:

0e634bd0189b44d8bd224ccae65217e3

03.年分

通过观察页面,发现只支持2014-2019年,应该是网站录入的数据并不能覆盖更早的年份。

bfbcbfefc4da4a478852c92513dc39e6

04.学校线

跳回到最开始,通过武汉理工大学查询历年分数的页面,同样的通过分析请求,你会找到一个请求的响应如下:

7a944b39c11643e894d6efaef6d5992a

请求的URL如下:

ae21f8dc75e44b7eb345e47958b21779

现在我们知道了,通过学校ID,拼接

request请求

,就可以获取到该学校的分数详情。

三、数据存盘

为什么要存储到本地数据库?

请求不易,请求过的下次就不用走网络,直接本地缓存取出。

防止请求过多被站点限制。

四、可视化

使用Python第三方库matplotlib即可,后续文章中会讲到关于Python可视化的部分。下面是效果图,查询结果以华中科技大学为例:

2fa99d3b0c434c31b9d3140b4fb731c1

最后

本文只是展示了基本的高考分数线数据处理,如果你感兴趣的话,还可以用爬虫做更多有意思的事情。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值