需求分析
今天是端午节,本来应该高高兴兴的吃吃粽子,过过节,但是呢,没想到妹妹今日很忧愁,连饭都吃不下了。我很担心,问她怎么了
她说,“仙草哥哥,马上就要高考了,有什么学校可以报呢?现在疫情我不想离家太远,本地有没有好的学校呢?学校发的手册上的内容查阅起来太困难了!”
有什么学校,那我可不知道啊,别说全国了,就连本地有几所大学我都数不明白呢。不过好在,就是获取学校信息嘛,这难不倒我,使用python的爬虫来实现就好了
注意:本次我采用的地址是阳光高考中的院校查询,其中已经明确给出了名单中不包括港澳台等地区的学校
页面分析
打开阳光高考中的院校查询,我们能够看到其中有很多信息
其中院校名称,所在地,学历层次,满意度等等都是文字内容,并不难获取。其中唯一不一样的在于“双一流”和“研究院”,这里没有文字,而是通过一个对号的符号作为标记的。因此,这里要和其他项不同,有符号标记的,就记录为是,没符号标记的就记录为否
目前总共有138页,每一页显示20个,总共大概有2750多所学校,还是非常多的,那么就从第一页开始