数据已经打包分享,这里是数据百度云下载链接:
即将踏入六月,酷暑袭来,一场没有硝烟的战场号角即将吹响---高考,高三的学子们正向心仪的大学发力。
选择一所大学很是重要,了解一所大学热度排名可以作为报考志愿的参考,不迷失方向。恰巧公司的微信群里有很多老师需要全国开设GIS(地理信息)和RS(遥感)专业的高校统计,所以我趁着端午休假无聊,防止长时间不用Python手生,准备爬取一些高校的信息。
于是开整~~
下载地址为http://phantomjs.org/download.html
下载为zip的文件,解压至任意路径都行
使用Selenium + PhantomJS + python(2.7)主要代码如下
from bs4 import BeautifulSoup
from selenium import webdriver
def get_university(url):
print(url)
driver = webdriver.PhantomJS(executable_path=r'D:\Python27\phantomjs-2.1.1-windows\bin\phantomjs.exe')
driver.get(url)
data = driver.page_source
# print(data)
driver.close()
bfcontent = BeautifulSoup(data, 'lxml')
所以在解析的过程中需要判断标签中class属性
主要代码如下:
这样就没啥大问题了,最终爬取到全国2784所全国高校排名热度信息。
作为一名GISer,想看看所有高校在地理位置上的展示,于是使用地理编码的API,python 正好也有geocoder这个库,这里奉上该库的github项目地址DenisCarriere/geocoder
该库支持丰富的在线编码提供商。本来想用ArcGIS和谷歌的,但是网络有些问题,处理速度巨慢,原因还是你懂得~~,最终用百度的,众所周知的原因,百度的坐标有一定的偏移,但是偏得也不会那么离谱,能用!
主要代码如下:
然后就得到了带有经纬度信息的全国高校信息和分布图,
然后又顺便爬取全国开设GIS(地理信息)和RS(遥感)专业的高校统计
数据来源引用
地理遥感生态网上分享了很多地理遥感领域的科学数据(土地利用数据、npp净初级生产力数据数据、NDVI数据、径流量数据、夜间灯光数据、统计年鉴、道路网、POI兴趣点数据、GDP分布、人口密度分布、三级流域矢量边界、地质灾害分布数据、土壤类型、土壤质地、土壤有机质、土壤PH值、土壤质地、土壤侵蚀、植被类型、自然保护区分布、建筑轮廓分布等等地理数据,以及关于gis、遥感从方面的操作教程)。
2.地理空间数据云
(1)2000年全球土地覆盖计划(GLC2000)
(2)欧空局全球陆地覆盖数据(ESA GlobCover)
3.地理科学生态网
网站地址www.csdn.store
4.马里兰大学数据集
UMd基于AVHRR数据的5个波段及NDVI数据经过又一次组合建议数据矩阵,用分类树的方法进行了全球土地覆盖分类工作。其目的是希望建立一个比过去数据更高精度的数据集