8W+文本数据,全景式展现中国教育发展情况

前面使用爬虫的方法动态获取了教育资讯(用Python汇集并生成每日教育动态),完成之后就会很自然就会想,能不能把所有的文本都获取下来,进行一个全面的文本分析,一方面能够将自己目前学过的文本分析方法系统的整理一遍,并且学一些新的方法,另一方面作为一个教育学的博士,搞这种文本分析对自己也会有一定的启发,调剂一下枯燥的读文献的生活。

这篇文章的分析对象是教育部官网上的文本数据,选择教育部官网的原因是信息具有权威性,并且代表国家的政策方向,能够在一定程度上提高分析过程和分析结果的可信度。

本文的分析目的主要有3点:1)分析发文时间规律和特定时间段内容演进情况;2)通过城市提及次数分析我国教育分布的地域特点;3)分析文本内容,把握文本词频分布、主题分布,对特定主题进行分析。

本文使用到的主要分析方法和工具包括:

  • Python 3.7.4:编程语言

  • Pandas:数据格式,数据处理

  • jieba:分词、关键词提取

  • datamap、Excel三维地图:Excel插件和自带功能,进行地图可视化分析

  • Excel:文本数据、分析结果存储

  • Gensim:词向量构建,LDA模型等

1 数据来源

本文通过网络爬虫,以“教育”为检索词,获取教育部官网的文本数据。去掉无效链接和空网页,截止2020年8月7日,得到教育部官网信息、资讯84089篇,内容主要涉及国家发布的重大教育法规、工作简报、统计数据、执行公告、政策、决定和其他教育部公开信息,以及教育部和地方教育部门发布的教育相关政策、文件,各高校、各级各类学校相关的新闻,较为重要的教育时事新闻,以及其他教育部较为关注的热点新闻。所有信息均为网站公开信息,网络爬虫为最简单的requests爬虫。

所有教育部的文本信息共计1.036亿字,下文统称为教育部文本数据。这些数据反映21世纪互联网兴起、政府信息逐步上网以来,中国教育的大体发展方向和演进规律,反映国家、教育部和地方教育部门的政策纲领、政策方向、施政方式和施政成效,并揭示在某一特定历史时期我国的教育转向和发展趋势。本文将从时间分析、城市分析和内容分析三个维度,对21世纪以来我国的教育发展情况与规律进行一个较为全面的分析。

2 时间分析

经过清洗数据,提取信息发布的时间,可以看到这一部分数据最早上网的信息可以追溯到1981年,是当时发布的《中华人民共和国学位条例暂行实施办法》,当时还只有10个学科门类,还没有管理学、军事学和艺术学,充满历史感。

分析历年的信息发布数量可以看到,教育信息发布在网上的数量呈现整体逐年上升的趋势,特别是2007年后上升幅度陡然增大,也反映在这个时间点,我国步入网络时代的速度陡然加速。此外,2000年、2008年、2012年、2017年和2019年相较于相邻年份的文本数量而言较大,分析这些时间节点也许能够对我国的教育发展加深了解。

将上述信息发布的时间趋势按照各年份的季度重新统计,得到下图。能够发现1999Q3(1999年第三季度,下同)、2000Q1、2000Q2、2008Q2、2011Q2、2012Q2、2016Q2、2017Q2、2017Q4、2019Q2这些季度的教育信息量与邻近季度相比更为更大,将这些季度的教育部文本筛选出来,观察关键词。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值