用python爬取考研信息网_【高考、考研党的福利】使用Python爬取全国高校及GIS/RS专业信息【附代码和Excel】...

本文介绍了如何使用Python结合Selenium和PhantomJS爬取全国高校的GIS(地理信息)和RS(遥感)专业信息。在爬取过程中,通过模拟浏览器环境解决动态加载的问题,并利用geocoder库进行地理编码,获取高校的经纬度坐标。最后,作者提供了爬取到的数据,供高考、考研学生参考。
摘要由CSDN通过智能技术生成

题外话:前一段时间翻译了一部关于GIS的纪录片,然后发了一篇文章,没想到有这么多人感兴趣,为了让广大GISER知道有这部神片,遂想投稿至GIS相关的专栏,不曾想居然还没人开设,真是“绕树三匝,何枝可依”,于是开设了地理信息系统/遥感/定位导航(GIS/RS/GPS) - 知乎专栏,以便更好的学习与交流。欢迎大家的投稿!

即将踏入六月,酷暑袭来,一场没有硝烟的战场号角即将吹响---高考,高三的学子们正向心仪的大学发力。

选择一所大学很是重要,了解一所大学热度排名可以作为报考志愿的参考,不迷失方向。恰巧公司的微信群里有很多老师需要全国开设GIS(地理信息)和RS(遥感)专业的高校统计,所以我趁着端午休假无聊,防止长时间不用Python手生,准备爬取一些高校的信息。

于是开整~~~

通过全国高校查询 - 全国高校信息综合查询系统这个网站爬取数据源,首先正常打开网页,了解一下页面数据结构,看着很简单,应该很容易

但是我错了,使用正常爬取方式,得到的页面源码中没有表格信息,分析了一下,发现是通过JS生成的,那么正常的方法是不行了。是时候体会Python无所不能的时候了,我们可以用Selenium + PhantomJS + python(2.7)真实地模拟浏览器环境,等‘浏览器’加载完数据后,我们再抓取源码,保证网页源码的完整。

Selenium + PhantomJS + python(2.7)具体部署过程

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值