8W+文本数据，全景式展现中国教育发展情况

最新推荐文章于 2024-08-26 18:56:03 发布

兴富同学

最新推荐文章于 2024-08-26 18:56:03 发布

阅读量290

点赞数

文章标签：人工智能大数据数据分析微软数据可视化

本文链接：https://blog.csdn.net/fire2341/article/details/109158108

版权

前面使用爬虫的方法动态获取了教育资讯（用Python汇集并生成每日教育动态），完成之后就会很自然就会想，能不能把所有的文本都获取下来，进行一个全面的文本分析，一方面能够将自己目前学过的文本分析方法系统的整理一遍，并且学一些新的方法，另一方面作为一个教育学的博士，搞这种文本分析对自己也会有一定的启发，调剂一下枯燥的读文献的生活。

这篇文章的分析对象是教育部官网上的文本数据，选择教育部官网的原因是信息具有权威性，并且代表国家的政策方向，能够在一定程度上提高分析过程和分析结果的可信度。

本文的分析目的主要有3点：1）分析发文时间规律和特定时间段内容演进情况；2）通过城市提及次数分析我国教育分布的地域特点；3）分析文本内容，把握文本词频分布、主题分布，对特定主题进行分析。

本文使用到的主要分析方法和工具包括：

Python 3.7.4：编程语言
Pandas：数据格式，数据处理
jieba：分词、关键词提取
datamap、Excel三维地图：Excel插件和自带功能，进行地图可视化分析
Excel：文本数据、分析结果存储
Gensim：词向量构建，LDA模型等

1 数据来源

本文通过网络爬虫，以“教育”为检索词，获取教育部官网的文本数据。去掉无效链接和空网页，截止2020年8月7日，得到教育部官网信息、资讯84089篇，内容主要涉及国家发布的重大教育法规、工作简报、统计数据、执行公告、政策、决定和其他教育部公开信息，以及教育部和地方教育部门发布的教育相关政策、文件，各高校、各级各类学校相关的新闻，较为重要的教育时事新闻，以及其他教育部较为关注的热点新闻。所有信息均为网站公开信息，网络爬虫为最简单的requests爬虫。

所有教育部的文本信息共计1.036亿字，下文统称为教育部文本数据。这些数据反映21世纪互联网兴起、政府信息逐步上网以来，中国教育的大体发展方向和演进规律，反映国家、教育部和地方教育部门的政策纲领、政策方向、施政方式和施政成效，并揭示在某一特定历史时期我国的教育转向和发展趋势。本文将从时间分析、城市分析和内容分析三个维度，对21世纪以来我国的教育发展情况与规律进行一个较为全面的分析。

2 时间分析

经过清洗数据，提取信息发布的时间，可以看到这一部分数据最早上网的信息可以追溯到1981年，是当时发布的《中华人民共和国学位条例暂行实施办法》，当时还只有10个学科门类，还没有管理学、军事学和艺术学，充满历史感。

分析历年的信息发布数量可以看到，教育信息发布在网上的数量呈现整体逐年上升的趋势，特别是2007年后上升幅度陡然增大，也反映在这个时间点，我国步入网络时代的速度陡然加速。此外，2000年、2008年、2012年、2017年和2019年相较于相邻年份的文本数量而言较大，分析这些时间节点也许能够对我国的教育发展加深了解。

将上述信息发布的时间趋势按照各年份的季度重新统计，得到下图。能够发现1999Q3（1999年第三季度，下同）、2000Q1、2000Q2、2008Q2、2011Q2、2012Q2、2016Q2、2017Q2、2017Q4、2019Q2这些季度的教育信息量与邻近季度相比更为更大，将这些季度的教育部文本筛选出来，观察关键词。

最低0.47元/天解锁文章

兴富同学

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
8W+文本数据，全景式展现中国教育发展情况

前面使用爬虫的方法动态获取了教育资讯（用Python汇集并生成每日教育动态），完成之后就会很自然就会想，能不能把所有的文本都获取下来，进行一个全面的文本分析，一方面能够将自己目前学过的文...
复制链接

扫一扫