背景
记得那是去年秋天,我背着我心爱的小书包在校园里走着,突然接到老师的电话。 “研究生院大创项目开始了,咱们实验室也要报一个,负责人就决定是你了。一会我给你发几个表格你填一下交上去。”
我心想说“另请高明吧”。但是老师讲已经决定了。我就念了两句诗“-------,-------。” 后来我明白了。项目负责人的意思就是说,这个项目只有你一个人来做。 老师说“咱们要做一个智能金融预测系统,但是还没想好怎么做。这不最近高考吗,你先做个高考志愿推荐练练手。” 于是就有了这个先导工作——收集高考分数线信息。 具体而言,是要从新浪高考爬取高考信息,存储到数据库中供后续项目操作。 数据包括:
-
院校名称
-
考生所在地
-
考生类别批次
-
年份
-
最高分
-
平均分
源码存储于我的GITHUB。
在此感谢新浪高考。本爬虫遵守了新浪robots协议。
环境说明
操作系统:windows10 语言:Python3.6.5 爬虫框架:Scrapy 数据库:MongoDB 4.0.10 Community 插件:pymongo
创建Scrapy项目
打开命令行,进入到存放代码的目录。
C:\Users\dreamiond>d:
D:\>cd AllMyCode\Python\
创建Scrapy项目,运行下列命令。
scrapy startproject ScoreCrawler
细节可参考Scrapy入门教程。