带你来看全国3000所高等院校分布

截至2020年6月30日,全国高等学校共计3005所,其中:普通高等学校2740所,含本科院校1272所、高职(专科)院校1468所;成人高等学校265所。本名单未包含港澳台地区高等学校。

06

目录:

  • 0.全国高校分布—数据可视化

    • 0.1.环境引入

    • 0.2.各省高校数

    • 0.3.各市高校数

    • 0.4.本科&专科高校数

    • 0.5.民办&公办高校数

    • 0.6.各级主管单位所属高校数

    • 0.7.一流大学建设高校

    • 0.8.一流学科建设高校

  • 1.获取最新高校名单—数据爬虫

    • 1.1.教育部全国高等学校名单

    • 1.2.教育部阳光高考院校库

    • 1.3.数据源高校数据对比

    • 1.4.“双一流”高校名单

  • 2.全国高校分布—数据处理

    • 2.1.数据预处理

    • 2.2.各省高校数

    • 2.3.各市高校数

    • 2.4.本科&专科高校数

    • 2.5.民办&公办高校数

    • 2.6.各级主管单位所属高校数

    • 2.7.一流大学建设高校

    • 2.8.一流学科建设高校

    公众号回复“高校”可领取全部代码文件

0.全国高校分布—数据可视化

这里我们使用pyecharts数据可视化库进行数据展示

0.1.环境引入

pyecharts分为0.5x 和 1.x 版本,本次使用的是 1.7.1版本

 #先导入Jupyter lab渲染插件
from pyecharts.globals import CurrentConfig, NotebookType
CurrentConfig.NOTEBOOK_TYPE = NotebookType.JUPYTER_LAB
#如果使用Jupyter notebook 则改为如下代码
#CurrentConfig.NOTEBOOK_TYPE = NotebookType.JUPYTER_NOTEBOOK
from pyecharts.charts import *
from pyecharts.components import Table
from pyecharts import options as opts
from pyecharts.globals import ThemeType

import pyecharts
print(pyecharts.__version__)
1.7.1

0.2.各省高校数

# map地图(省份)
c = (
    Map()
    .add("各省高校分布", [list(z) for z in zip(area['所在省'], area['合计'])], "china",label_opts=opts.LabelOpts(is_show=True))
    .set_global_opts(
        title_opts=opts.TitleOpts(title="高校分布-省"),
        visualmap_opts=opts.VisualMapOpts(max_=150),
    )
)
c.width = '1500px'
c.height = '900px'
c.render_notebook()

0.3.各市高校数

# map地图(城市)
c = (
    Map()
    .add("各市高校分布", [list(z) for z in zip(city['所在地'], city['合计'])], "china-cities",label_opts=opts.LabelOpts(is_show=False))
    .set_global_opts(
        title_opts=opts.TitleOpts(title="高校分布-城市"),
        visualmap_opts=opts.VisualMapOpts(max_=50),
    )
)
c.width = '1500px'
c.height = '900px'
c.render_notebook()
c.render()

0.4.本科&专科高校数

from pyecharts.globals import ThemeType
bar = (
    Bar({"theme": ThemeType.MACARONS})
    .add_xaxis(list(level.所在省))
    .add_yaxis('专科', list(level.专科))
    .add_yaxis('本科', list(level.本科))
    .set_global_opts(title_opts=opts.TitleOpts(title="本科&专科高校数",
                                               title_textstyle_opts=opts.TextStyleOpts(font_style="italic")),
                     #强制显示全部x坐标标签
                     xaxis_opts=opts.AxisOpts(axislabel_opts={"interval":"0"})
                     )
    
)
bar.width = '1500px'
bar.render_notebook()
#计算办学层次中 本科及专科 分布
level_ = df.groupby('办学层次')['学校名称'].count().to_frame('数量').reset_index()
level_

办学层次数量
0专科1468
1本科1272

# 本专科分布图
c = (
    Pie()
    .add("", [list(z) for z in zip(level_.办学层次, level_.数量)])
    .set_global_opts(title_opts=opts.TitleOpts(title="本学层次分布"))
    .set_series_opts(label_opts=opts.LabelOpts(formatter="{b}: {c}"))
)
c.width = '1500px'
c.render_notebook()

0.5.民办&公办高校数

bar = (
    Bar({"theme": ThemeType.MACARONS})
    .add_xaxis(list(area.所在省))
    .add_yaxis('中外合作办学', list(area.中外合作办学))
    .add_yaxis('内地与港澳台地区合作办学', list(area.内地与港澳台地区合作办学))
    .add_yaxis('民办', list(area.民办))  
    .add_yaxis('公办', list(area.公办))
    .set_global_opts(title_opts=opts.TitleOpts(title="民办&公办高校数",
                                               title_textstyle_opts=opts.TextStyleOpts(font_style="italic")),
                     #强制显示全部x坐标标签
                     xaxis_opts=opts.AxisOpts(axislabel_opts={"interval":"0"})
                     )
    
)
bar.width = '1500px'
bar.render_notebook()

0.6.各级主管单位所属高校数

高校一般主管单位有各省、省教育厅、教委、教育部、工信部以及其他部门

0.6.1各省直属高校分布

从各省直属高校数我们可以看到 山东、河南、江苏和广东 主管的高校最多

这四个省 专科院校都在60所以上,本科院校也都接近或超过30所

#主管部门为省级单位
gov = pd.pivot_table(df,values='学校名称',index='主管部门',columns='办学层次',aggfunc='count',
               margins=True,margins_name='合计').fillna(0).sort_values(by='合计',ascending=False).reset_index()
#删除行汇总
gov.drop(0,axis=0,inplace=True)
govP = gov[gov['主管部门'].str.endswith(('省','市','区'))]

bar = (
    Bar({"theme": ThemeType.MACARONS})
    .add_xaxis(list(govP.主管部门))
    .add_yaxis('专科', list(govP.专科))  
    .add_yaxis('本科', list(govP.本科))
    .set_global_opts(title_opts=opts.TitleOpts(title="省级主管部门高校数",
                                               title_textstyle_opts=opts.TextStyleOpts(font_style="italic")),
                     #强制显示全部x坐标标签
                     xaxis_opts=opts.AxisOpts(axislabel_opts={"rotate":30,"interval":0})
                     )
    
)
bar.width = '1500px'
bar.render_notebook()
0.6.2.教育单位直属高校分布

教育部是直属高校最多的部门,且仅主管本科院校,共76所。

#主管部门为教育单位
gov = pd.pivot_table(df,values='学校名称',index='主管部门',columns='办学层次',aggfunc='count',
               margins=True,margins_name='合计').fillna(0).sort_values(by='合计',ascending=False).reset_index()
#删除行汇总
gov.drop(0,axis=0,inplace=True)
govE = gov[gov['主管部门'].str.contains('教')]

bar = (
    Bar({"theme": ThemeType.MACARONS})
    .add_xaxis(list(govE.主管部门))
    .add_yaxis('专科', list(govE.专科))  
    .add_yaxis('本科', list(govE.本科))
    .set_global_opts(title_opts=opts.TitleOpts(title="教育类主管部门高校数",
                                               title_textstyle_opts=opts.TextStyleOpts(font_style="italic")),
                     #强制显示全部x坐标标签
                     xaxis_opts=opts.AxisOpts(axislabel_opts={"rotate":30,"interval":0})
                     )
    
)
bar.width = '1500px'
bar.render_notebook()
0.6.3.其他部门直属高校分布

像工信部(直属7所国防院校),国家民委、公安部等都主管有5所以上本科院校

#主管部门为其他单位
gov = pd.pivot_table(df,values='学校名称',index='主管部门',columns='办学层次',aggfunc='count',
               margins=True,margins_name='合计').fillna(0).sort_values(by='合计',ascending=False).reset_index()
#删除行汇总
gov.drop(0,axis=0,inplace=True)
govE = gov[~((gov['主管部门'].str.contains('教'))|(gov['主管部门'].str.endswith(('省','市','区'))))]

bar = (
    Bar({"theme": ThemeType.MACARONS})
    .add_xaxis(list(govE.主管部门))
    .add_yaxis('专科', list(govE.专科))  
    .add_yaxis('本科', list(govE.本科))
    .set_global_opts(title_opts=opts.TitleOpts(title="其他主管部门高校数",
                                               title_textstyle_opts=opts.TextStyleOpts(font_style="italic")),
                     #强制显示全部x坐标标签
                     xaxis_opts=opts.AxisOpts(axislabel_opts={"rotate":30,"interval":0})
                     )
    
)
bar.width = '1500px'
bar.render_notebook()
# 国防七子
df[df.主管部门=='工业和信息化部'].drop('序号',axis=1).reset_index(drop=True)


学校名称学校标识码主管部门所在省所在地办学层次备注
0北京航空航天大学4111010006工业和信息化部北京北京本科公办
1北京理工大学4111010007工业和信息化部北京北京本科公办
2哈尔滨工业大学4123010213工业和信息化部黑龙江哈尔滨本科公办
3哈尔滨工程大学4123010217工业和信息化部黑龙江哈尔滨本科公办
4南京航空航天大学4132010287工业和信息化部江苏南京本科公办
5南京理工大学4132010288工业和信息化部江苏南京本科公办
6西北工业大学4161010699工业和信息化部陕西西安本科公办

# 公安系统大学
df[df.主管部门=='公安部'].drop('序号',axis=1).reset_index(drop=True)


学校名称学校标识码主管部门所在省所在地办学层次备注
0中国人民公安大学4111010041公安部北京北京本科公办
1中国人民警察大学4113011105公安部河北廊坊本科公办
2中国刑事警察学院4121010175公安部辽宁沈阳本科公办
3南京森林警察学院4132012213公安部江苏南京本科公办
4铁道警察学院4141012735公安部河南郑州本科公办

# 民族大学
df[df.主管部门=='国家民委'].drop('序号',axis=1).reset_index(drop=True)


学校名称学校标识码主管部门所在省所在地办学层次备注
0中央民族大学4111010052国家民委北京北京本科公办
1大连民族大学4121012026国家民委辽宁大连本科公办
2中南民族大学4142010524国家民委湖北武汉本科公办
3西南民族大学4151010656国家民委四川成都本科公办
4西北民族大学4162010742国家民委甘肃兰州本科公办
5北方民族大学4164011407国家民委宁夏银川本科公办

0.7.一流大学建设高校

该部分从college_42获取,一共42所,其中北京8所,上海4所,陕西与湖南各3所

# map地图(省份)
c = (
    Map()
    .add("各省高校分布", [list(z) for z in zip(area_42['院校所在地'], area_42['数量'])], "china",label_opts=opts.LabelOpts(is_show=True))
    .set_global_opts(
        title_opts=opts.TitleOpts(title="一流大学建设高校分布-省"),
        visualmap_opts=opts.VisualMapOpts(max_=5),
    )
)
c.width = '1500px'
c.height = '900px'
c.render_notebook()
# 北京 一流大学建设高校
college_42[college_42['院校所在地']=='北京']


院校名称院校所在地教育行政主管部门院校类型学历层次一流大学建设高校一流学科建设高校研究生院满意度
0北京大学北京教育部综合本科1.0NaN1.04.7
1中国人民大学北京教育部综合本科1.0NaN1.04.7
2清华大学北京教育部综合本科1.0NaN1.04.8
3北京航空航天大学北京工业和信息化部工科本科1.0NaN1.04.5
4北京理工大学北京工业和信息化部工科本科1.0NaN1.04.5
5中国农业大学北京教育部农业本科1.0NaN1.04.7
6北京师范大学北京教育部师范本科1.0NaN1.04.5
7中央民族大学北京国家民族事务委员会民族本科1.0NaNNaN4.3

# 上海 一流大学建设高校
college_42[college_42['院校所在地']=='上海'].reset_index(drop=True)


院校名称院校所在地教育行政主管部门院校类型学历层次一流大学建设高校一流学科建设高校研究生院满意度
0复旦大学上海教育部综合本科/高职(专科)1.0NaN1.04.7
1同济大学上海教育部工科本科/高职(专科)1.0NaN1.04.6
2上海交通大学上海教育部综合本科1.0NaN1.04.7
3华东师范大学上海教育部师范本科/高职(专科)1.0NaN1.04.6

0.8.一流学科建设高校

该部分从college_95获取,一共95所,其中北京26所,江苏12所,上海10所

# map地图(省份)
c = (
    Map()
    .add("各省高校分布", [list(z) for z in zip(area_95['院校所在地'], area_95['数量'])], "china",label_opts=opts.LabelOpts(is_show=True))
    .set_global_opts(
        title_opts=opts.TitleOpts(title="一流学科建设高校分布-省"),
        visualmap_opts=opts.VisualMapOpts(max_=10),
    )
)
c.width = '1500px'
c.height = '900px'
c.render_notebook()
# 北京 一流学科建设高校
college_95[college_95['院校所在地']=='北京']


院校名称院校所在地教育行政主管部门院校类型学历层次一流大学建设高校一流学科建设高校研究生院满意度
0北京交通大学北京教育部工科本科/高职(专科)NaN1.01.04.4
1北京工业大学北京北京市教育委员会工科本科/高职(专科)NaN1.0NaN4.4
2北京科技大学北京教育部工科本科/高职(专科)NaN1.01.04.5
3北京化工大学北京教育部工科本科/高职(专科)NaN1.0NaN4.1
4北京邮电大学北京教育部工科本科NaN1.01.04.3
5北京林业大学北京教育部林业本科NaN1.01.04.4
6北京协和医学院北京国家卫生健康委员会医药本科/高职(专科)NaN1.01.04.2
7北京中医药大学北京教育部医药本科/高职(专科)NaN1.0NaN3.8
8首都师范大学北京北京市教育委员会师范本科NaN1.0NaN4
9北京外国语大学北京教育部语言本科NaN1.0NaN4.3
10中国传媒大学北京教育部语言本科/高职(专科)NaN1.0NaN4.5
11中央财经大学北京教育部财经本科NaN1.0NaN4.2
12对外经济贸易大学北京教育部财经本科NaN1.0NaN4.7
13外交学院北京外交部语言本科NaN1.0NaN4.1
14中国人民公安大学北京公安部政法本科NaN1.0NaN4.4
15北京体育大学北京国家体育总局体育本科NaN1.0NaN4.1
16中央音乐学院北京教育部艺术本科NaN1.0NaN4.5
17中国音乐学院北京北京市教育委员会艺术本科NaN1.0NaN4.3
18中央美术学院北京教育部艺术本科/高职(专科)NaN1.0NaN4.6
19中央戏剧学院北京教育部艺术本科/高职(专科)NaN1.0NaN4.8
20中国政法大学北京教育部政法本科NaN1.0NaN4.5
21华北电力大学北京教育部工科本科NaN1.0NaN4.3
22中国矿业大学北京教育部工科本科NaN1.01.04.3
23中国石油大学北京教育部工科本科NaN1.01.04.1
24中国地质大学北京教育部工科本科NaN1.01.04.2
25中国科学院大学北京中国科学院综合本科NaN1.0NaN4.5

# 上海 一流学科建设高校
college_95[college_95['院校所在地']=='上海'].reset_index(drop=True)


院校名称院校所在地教育行政主管部门院校类型学历层次一流大学建设高校一流学科建设高校研究生院满意度
0华东理工大学上海教育部工科本科NaN1.01.04.2
1东华大学上海教育部工科本科NaN1.0NaN4.5
2上海海洋大学上海上海市教育委员会农业本科/高职(专科)NaN1.0NaN4.2
3上海中医药大学上海上海市教育委员会医药本科/高职(专科)NaN1.0NaN3.5
4上海外国语大学上海教育部语言本科/高职(专科)NaN1.0NaN4.3
5上海财经大学上海教育部财经本科NaN1.0NaN4.6
6上海体育学院上海上海市教育委员会体育本科NaN1.0NaN4.5
7上海音乐学院上海上海市教育委员会艺术本科NaN1.0NaN4.7
8上海大学上海上海市教育委员会综合本科/高职(专科)NaN1.0NaN4.4
9海军军医大学上海中央军委训练管理部综合本科NaN1.0NaN1.0

1.获取最新高校名单—数据爬虫

数据来源

  • 教育部全国高等学校名单

    (http://www.moe.gov.cn/mdcx/qggdxxmd/201912/t20191217_10000023.html)

  • 教育部阳光高考院校库(https://gaokao.chsi.com.cn/sch/search--ss-on,option-qg,searchType-1,start-0.dhtml)

1.1.教育部全国高等学校名单

截至2020年6月30日,全国高等学校共计3005所,其中:普通高等学校2740所,含本科院校1272所、高职(专科)院校1468所;成人高等学校265所。本名单未包含港澳台地区高等学校。 ”

教育部高等学校名单有网页版和电子表格文档版,不会爬虫的小伙伴可以直接下载文档版即可。通过分析网页版数据,这里决定简单使用requests请求数据,然后用bs4进行数据解析,需要注意的是在请求数据的时候需要带请求头,否则会出现403的报错。由于处理过程比较简单,不再赘述,全部代码如下:

#引入需要用到的库
import pandas as pd
import requests
from bs4 import BeautifulSoup
# 从教育部官网获取最新的高校名单
# 简单使用requests + bs4 爬取
lis = []
num = 0
for page in range(1,138):
    url = f'http://www.moe.gov.cn/school/wcmdata/getDataIndex.jsp?listid=10000023&page={page}&keyword='
    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.97 Safari/537.36'}
    re = requests.get(url,headers=headers)    
    
    soup = BeautifulSoup(re.text,'lxml')    
    trs = soup.find_all('tr')
    
    for tr in trs:
        num+=1
        li = {}
        tds = tr.find_all('td')
        li['序号'] = tds[0].text
        li['学校名称'] = tds[1].text
        li['学校标识码'] = tds[2].text
        li['主管部门'] = tds[3].text
        li['所在省'] = tds[4].text
        li['所在地'] = tds[5].text
        li['办学层次'] = tds[6].text
        li['备注'] = tds[7].text
        lis.append(li)
        print(f'\r已采集{num}个学校信息',end=' ')
    
df = pd.DataFrame(lis)
#数据预览
df.head()


序号学校名称学校标识码主管部门所在省所在地办学层次备注
01北京大学4111010001教育部北京市北京市本科
12中国人民大学4111010002教育部北京市北京市本科
23清华大学4111010003教育部北京市北京市本科
34北京交通大学4111010004教育部北京市北京市本科
45北京工业大学4111010005北京市北京市北京市本科

1.2.教育部阳光高考院校库

区别于教育部全国高等学校名单,阳光高考院校库还包含有院校特性、院校类型等属性。其中院校类型我们主要关注一流大学建设学校一流学科建设学校,也就是从2017年开始推进的双一流;院校类型就是通常所说的工科院校、师范院校等类型。

世界一流大学和一流学科,简称“双一流”。建设世界一流大学和一流学科,是中共中央、国务院作出的重大战略决策,也是中国高等教育领域继“211工程”“985工程”之后的又一国家战略,有利于提升中国高等教育综合实力和国际竞争力,为实现“两个一百年”奋斗目标和实现中华民族伟大复兴的中国梦提供有力支柱。 首批“双一流”建设高校共计137所,其中世界一流大学建设高校42所(A类36所,B类6所),世界一流学科建设高校95所。
# 从阳光高考网站获取各高校
# 在分析网页的时候,发现是标准的table表单形式,刚好可以使用pandas的read_html进行简单的爬取
data = pd.DataFrame()
for i in range(141):
    data_ = pd.read_html(f'https://gaokao.chsi.com.cn/sch/search.do?searchType=1&start={i*20}')[0]
    data = data.append(data_)
    print(f'\r已采集{(i+1)*20}个学校信息',end=' ')
# 由于双一流标识是√,这里替换为数字1方便后续计算
data.replace('',1,inplace=True)
# 重置索引,并删除旧的索引
data = data.reset_index(drop=True)
#数据预览
data.head()


院校名称院校所在地教育行政主管部门院校类型学历层次一流大学建设高校一流学科建设高校研究生院满意度
0北京大学北京教育部综合本科1.0NaN1.04.7
1中国人民大学北京教育部综合本科1.0NaN1.04.7
2清华大学北京教育部综合本科1.0NaN1.04.8
3北京交通大学北京教育部工科本科/高职(专科)NaN1.01.04.4
4北京工业大学北京北京市教育委员会工科本科/高职(专科)NaN1.0NaN4.4

1.3.数据源高校数据对比

我们对比从两份数据源获取的数据,发现存在一些差异:一份是2740名单,另外一份是2820名单。具体差在哪里呢?我们简单看下:

# 由于在两份数据中,一个使用的是英文括号,一个使用的是中文括号,为了方便数据比对,我们统一改为中文括号。
# 将阳光高考院校库院校名称中英文括号改为中文括号
data.院校名称 = data.院校名称.str.replace('(','(').str.replace(')',')')

教育部全国高等学校名单中不在阳光高考院校库的学校信息

#筛选出名单列表
dfNotdata = list(set(df.学校名称)-set(data.院校名称))
#isin选取数据
dfDiff = df[df['学校名称'].isin(dfNotdata)]
dfDiff.head()


序号学校名称学校标识码主管部门所在省所在地办学层次备注
4849华北电力大学4111010054教育部北京市北京市本科
5657中国青年政治学院4111011625共青团中央北京市北京市本科
122123天津市职业大学4112011032天津市天津市天津市专科
303304运城职业技术大学4114014226山西省教育厅山西省运城市本科民办
307308山西省财政税务专科学校4114011630山西省山西省太原市专科

dfDiff.shape
(24, 8)

我们看到在24所学校中,其实是因为存在部分学校校区分布导致数据对不上,比如华北电力大学,在阳光高考中是分为北京和保定校区的。

# 阳光高考院校库中 华北电力大学情况
data[data.院校名称.str.contains('华北电力大学')]

院校名称院校所在地教育行政主管部门院校类型学历层次一流大学建设高校一流学科建设高校研究生院满意度
48华北电力大学(北京)北京教育部工科本科NaN1.0NaN4.3
161华北电力大学(保定)河北教育部工科本科NaN1.0NaN4.5
241华北电力大学科技学院河北河北省教育厅工科本科NaNNaNNaN3.5

教育部阳光高考院校库中不在全国高等学校名单的学校信息

#筛选出名单列表
dataNotdf = list(set(data.院校名称)-set(df.学校名称))
#isin选取数据
dataDiff = data[data['院校名称'].isin(dataNotdf)]
dataDiff.head()

院校名称院校所在地教育行政主管部门院校类型学历层次一流大学建设高校一流学科建设高校研究生院满意度
48华北电力大学(北京)北京教育部工科本科NaN1.0NaN4.3
91北京大学医学部北京教育部综合本科/高职(专科)1.0NaN1.04.1
92北京科技大学延庆分校北京北京市教育委员会工科高职(专科)NaNNaNNaN3.2
93北京邮电大学(宏福校区)北京教育部工科本科NaN1.01.0--
94陆军装甲兵学院北京中央军委训练管理部综合本科NaNNaNNaN--

dataDiff.shape
(102, 9)

实际上,华北电力大学(北京),北京邮电大学(宏福校区)等在教育部全国高等学校名单中是存为华北电力大学和北京邮电大学

# 教育部全国高等学校名单中华北电力大学和北京邮件大学相关关键字学校信息
df[df.学校名称.str.contains('华北电力大学|北京邮电大学')]


序号学校名称学校标识码主管部门所在省所在地办学层次备注
1213北京邮电大学4111010013教育部北京市北京市本科
4849华北电力大学4111010054教育部北京市北京市本科
6162北京邮电大学世纪学院4111013901北京市教委北京市北京市本科民办
193194华北电力大学科技学院4113013417河北省教育厅河北省保定市本科民办

1.4.“双一流”高校名单

"双一流" 大学标识字段在 阳光高考数据源中有,因此我们从这部分数据中进行处理。从数据观察中,我们发现对分校、医学院等都有标注,因此可以通过对针对性处理获取最终的名单。

一流大学建设高校 一共42所:

# “双一流”标识字段在阳光高考院校库才有,我们用这部分数据进行筛选
a = data.copy(deep=True)
# 由于部分 院校有 分校,我们需要过滤
a.院校名称 = data.院校名称.str.split('(',1,True)[0]
a.drop_duplicates(subset='院校名称',inplace=True)
#42所一流大学建设学校(分校、医学院等过滤)
college_42 = a[(a['一流大学建设高校']==1)&(a.满意度!='--')&(a['院校名称'].str.endswith('学'))].reset_index(drop=True)
print(list(college_42.院校名称))
['北京大学', '中国人民大学', '清华大学', '北京航空航天大学', '北京理工大学', '中国农业大学', '北京师范大学', '中央民族大学', '南开大学', '天津大学', '大连理工大学', '东北大学', '吉林大学', '哈尔滨工业大学', '复旦大学', '同济大学', '上海交通大学', '华东师范大学', '南京大学', '东南大学', '浙江大学', '中国科学技术大学', '厦门大学', '山东大学', '中国海洋大学', '郑州大学', '武汉大学', '华中科技大学', '湖南大学', '中南大学', '国防科技大学', '中山大学', '华南理工大学', '重庆大学', '四川大学', '电子科技大学', '云南大学', '西安交通大学', '西北工业大学', '西北农林科技大学', '兰州大学', '新疆大学']

一流学科建设高校 一共95所:

#95所一流大学建设学校
college_95 = a[(a['一流学科建设高校']==1)&(a.满意度!='--')].reset_index(drop=True)
print(list(college_95.院校名称))
['北京交通大学', '北京工业大学', '北京科技大学', '北京化工大学', '北京邮电大学', '北京林业大学', '北京协和医学院', '北京中医药大学', '首都师范大学', '北京外国语大学', '中国传媒大学', '中央财经大学', '对外经济贸易大学', '外交学院', '中国人民公安大学', '北京体育大学', '中央音乐学院', '中国音乐学院', '中央美术学院', '中央戏剧学院', '中国政法大学', '华北电力大学', '中国矿业大学', '中国石油大学', '中国地质大学', '中国科学院大学', '天津工业大学', '天津医科大学', '天津中医药大学', '河北工业大学', '太原理工大学', '内蒙古大学', '辽宁大学', '大连海事大学', '延边大学', '东北师范大学', '哈尔滨工程大学', '东北农业大学', '东北林业大学', '华东理工大学', '东华大学', '上海海洋大学', '上海中医药大学', '上海外国语大学', '上海财经大学', '上海体育学院', '上海音乐学院', '上海大学', '海军军医大学', '苏州大学', '南京航空航天大学', '南京理工大学', '南京邮电大学', '河海大学', '江南大学', '南京林业大学', '南京信息工程大学', '南京农业大学', '南京中医药大学', '中国药科大学', '南京师范大学', '中国美术学院', '宁波大学', '安徽大学', '合肥工业大学', '福州大学', '南昌大学', '河南大学', '武汉理工大学', '华中农业大学', '华中师范大学', '中南财经政法大学', '湖南师范大学', '暨南大学', '广州中医药大学', '华南师范大学', '广西大学', '海南大学', '西南大学', '西南交通大学', '西南石油大学', '成都理工大学', '四川农业大学', '成都中医药大学', '西南财经大学', '贵州大学', '西藏大学', '西北大学', '西安电子科技大学', '长安大学', '陕西师范大学', '空军军医大学', '青海大学', '宁夏大学', '石河子大学']

2.全国高校分布—数据处理

我们以教育部全国高等学校名单为数据源,统计全国各地(省、市)高校分布本科及专科院校分布民办院校分布各级主管单位所属院校分布

我们以教育部阳光高考院校库为数据源,统计一流大学建设高校分布一流学科建设高校分布

2.1.数据预处理

数据比较整齐,仅备注中公办类型未标注,这里做简单处理,添加 公办 标识

# 导入需要用到的库
import numpy as np
#将备注中空值改为 公办类型,用于后续统计
df.备注[df.备注==''] = '公办'
#pyecharts作图时需要去掉省市及自治州等属性标签
df['所在省']=df['所在省'].apply(lambda x:x.replace("省",'').replace("市",''))
df.所在省 = df.所在省.replace(['广西壮族自治区','新疆维吾尔自治区','内蒙古自治区','宁夏回族自治区','西藏自治区'],['广西','新疆','内蒙古','宁夏','西藏'])
df.所在地 = df.所在地.apply(lambda x: x.replace('市','').replace('地区','')
                              .replace('蒙古族藏族自治州','').replace('布依族苗族自治州','')
                              .replace('哈萨克自治州','').replace('白族自治州','')
                              .replace('苗族侗族自治州','').replace('哈尼族彝族自治州','')
                              .replace('土家族苗族自治州','').replace('回族自治州','')
                              .replace('彝族自治州','').replace('朝鲜族自治州','')
                              .replace('布依族苗族自治州','').replace('傣族景颇族自治州','')
                              .replace('藏族羌族自治州','').replace('蒙古自治州','')
                              .replace('壮族苗族自治州','').replace('柯尔克孜自治州','')
                              .replace('傣族自治州','').replace('藏族自治州','')
                              .replace('蒙古族藏族自治州','')
                              )
df.head()


序号学校名称学校标识码主管部门所在省所在地办学层次备注
01北京大学4111010001教育部北京北京本科公办
12中国人民大学4111010002教育部北京北京本科公办
23清华大学4111010003教育部北京北京本科公办
34北京交通大学4111010004教育部北京北京本科公办
45北京工业大学4111010005北京市北京北京本科公办

2.2.各省高校数

# 计算各省高校数
area = pd.pivot_table(df,values='学校名称',index='所在省',columns='备注',aggfunc='count',
               margins=True,margins_name='合计').fillna(0).sort_values(by='合计',ascending=False).reset_index()
#删除行汇总
area.drop(0,axis=0,inplace=True)
area.head()

备注所在省中外合作办学公办内地与港澳台地区合作办学民办合计
1江苏3.0116.00.048.0167
2广东2.0100.02.050.0154
3山东0.0110.00.042.0152
4河南1.0107.00.043.0151
5四川0.081.00.051.0132

2.3.各市高校数

#计算各市高校数
city = pd.pivot_table(df,values='学校名称',index='所在地',columns='备注',aggfunc='count',
               margins=True,margins_name='合计').fillna(0).sort_values(by='合计',ascending=False).reset_index()
#删除行汇总
city.drop(0,axis=0,inplace=True)
city.head()

备注所在地中外合作办学公办内地与港澳台地区合作办学民办合计
1北京0.077.00.015.092
2武汉0.052.00.031.083
3广州0.053.00.029.082
4重庆0.039.00.029.068
5郑州1.042.00.022.065

2.4.本科&专科高校数

#计算办学层次中 本科及专科 分布
level = pd.pivot_table(df,values='学校名称',index='所在省',columns='办学层次',aggfunc='count',
               margins=True,margins_name='合计').fillna(0).sort_values(by='合计',ascending=False).reset_index()
#删除行汇总
level.drop(0,axis=0,inplace=True)
level.head()

办学层次所在省专科本科合计
1江苏8978167
2广东8767154
3山东8270152
4河南9457151
5四川7953132

2.5.民办&公办高校数

见**各省市高校数**

2.6.各级主管单位所属高校数

#计算主管部门 分布
gov = pd.pivot_table(df,values='学校名称',index='主管部门',columns='办学层次',aggfunc='count',
               margins=True,margins_name='合计').fillna(0).sort_values(by='合计',ascending=False).reset_index()
#删除行汇总
gov.drop(0,axis=0,inplace=True)
gov.head()

办学层次主管部门专科本科合计
1山东省66.041.0107
2河南省69.037.0106
3江苏省68.038.0106
4广东省61.037.098
5湖南省66.029.095

2.7.一流大学建设高校

该部分从college_42获取,一共42所

area_42 = college_42.groupby('院校所在地')['院校名称'].count().to_frame('数量').sort_values(by='数量',ascending=False).reset_index()
area_42.head()


院校所在地数量
0北京8
1上海4
2陕西3
3湖南3
4广东2

2.8.一流学科建设高校

该部分从college_95获取,一共95所

area_95 = college_95.groupby('院校所在地')['院校名称'].count().to_frame('数量').sort_values(by='数量',ascending=False).reset_index()
area_95.head()


院校所在地数量
0北京26
1江苏12
2上海10
3四川6
4陕西5

近期文章

Python网络爬虫与文本数据分析

rpy2库 | 在jupyter中调用R语言代码
tidytext | 耳目一新的R-style文本分析库
reticulate包 | 在Rmarkdown中调用Python代码
plydata库 | 数据操作管道操作符>>
plotnine: Python版的ggplot2作图库

七夕礼物 | 全网最火的钉子绕线图制作教程

读完本文你就了解什么是文本分析

文本分析在经管领域中的应用概述  
综述:文本分析在市场营销研究中的应用

plotnine: Python版的ggplot2作图库
小案例: Pandas的apply方法  
stylecloud:简洁易用的词云库 
用Python绘制近20年地方财政收入变迁史视频  
Wow~70G上市公司定期报告数据集

漂亮~pandas可以无缝衔接Bokeh  
YelpDaset: 酒店管理类数据集10+G  


  • 分享”和“在看”是更好的支持!

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值