大创项目——Scrapy爬取新浪高考成绩

背景

记得那是去年秋天,我背着我心爱的小书包在校园里走着,突然接到老师的电话。 “研究生院大创项目开始了,咱们实验室也要报一个,负责人就决定是你了。一会我给你发几个表格你填一下交上去。”

我心想说“另请高明吧”。但是老师讲已经决定了。我就念了两句诗“-------,-------。” 后来我明白了。项目负责人的意思就是说,这个项目只有你一个人来做。 老师说“咱们要做一个智能金融预测系统,但是还没想好怎么做。这不最近高考吗,你先做个高考志愿推荐练练手。” 于是就有了这个先导工作——收集高考分数线信息。 具体而言,是要从新浪高考爬取高考信息,存储到数据库中供后续项目操作。 数据包括:

  • 院校名称

  • 考生所在地

  • 考生类别批次

  • 年份

  • 最高分

  • 平均分

源码存储于我的GITHUB

在此感谢新浪高考。本爬虫遵守了新浪robots协议。


环境说明

操作系统:windows10 语言:Python3.6.5 爬虫框架:Scrapy 数据库:MongoDB 4.0.10 Community 插件:pymongo


创建Scrapy项目

首先安装Scrapy,不会安装的话参考安装指南

打开命令行,进入到存放代码的目录。

C:\Users\dreamiond>d:
​
D:\>cd AllMyCode\Python\
​

创建Scrapy项目,运行下列命令。

scrapy startproject ScoreCrawler

细节可参考Scrapy入门教程


观察网页结构

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值