题外话:前一段时间翻译了一部关于GIS的纪录片,然后发了一篇文章,没想到有这么多人感兴趣,为了让广大GISER知道有这部神片,遂想投稿至GIS相关的专栏,不曾想居然还没人开设,真是“绕树三匝,何枝可依”,于是开设了地理信息系统/遥感/定位导航(GIS/RS/GPS) - 知乎专栏,以便更好的学习与交流。欢迎大家的投稿!
即将踏入六月,酷暑袭来,一场没有硝烟的战场号角即将吹响---高考,高三的学子们正向心仪的大学发力。
选择一所大学很是重要,了解一所大学热度排名可以作为报考志愿的参考,不迷失方向。恰巧公司的微信群里有很多老师需要全国开设GIS(地理信息)和RS(遥感)专业的高校统计,所以我趁着端午休假无聊,防止长时间不用Python手生,准备爬取一些高校的信息。
于是开整~~~
通过全国高校查询 - 全国高校信息综合查询系统这个网站爬取数据源,首先正常打开网页,了解一下页面数据结构,看着很简单,应该很容易
但是我错了,使用正常爬取方式,得到的页面源码中没有表格信息,分析了一下,发现是通过JS生成的,那么正常的方法是不行了。是时候体会Python无所不能的时候了,我们可以用Selenium + PhantomJS + python(2.7)真实地模拟浏览器环境,等‘浏览器’加载完数据后,我们再抓取源码,保证网页源码的完整。
Selenium + PhantomJS + python(2.7)具体部署过程