对教育数字化讯息进行文本分析(python)

在写关于教育数字化的东西,希望能嵌入一些数据分析,而非纯纯的语言性表述,在查阅了这方面的各种文献后,以下这篇让我觉得在方法上有一定借鉴意义:

[1]钟羽, 王觅, 郭心懿. 基础教育信息化研究热点与趋势分析——基于知识图谱的视角[J]. 现代教育科学, 2021(6):6.

文章研究流程大致遵循文献检索、词频统计、 相异矩阵生成、 聚类分析,最后通过多维尺度描绘知识图谱。

 现在人在行业外,手头的工具自然有限,好在anaconda还是装了,用jupyter notebook还可以进行一些简单的动作。

素材

在“宝山教育”公众号以“教育数字化”为关键词检索历史信息,将相关的21篇内容保存到txt中,作为本次分析的素材。(由于没搞定微信的批量下载,一篇篇点开时大致过了下内容,将相关性不大的,比如只是年度工作总结中提了一下这词的文章就略去,最后剩下21篇手动复制)。

流程

1、数据读取

2、词频分析

3、共现矩阵及相异矩阵构建

4、层次聚类分析

准备工作

中文文本分析,分词是最基础的,“jieba”是其中比较常用的一个库。

一般缺少的库都会直接使用“pip install xxx”的方式下载,但在jieba的pip安装时发生了time out 报错。在https://www.lfd.uci.edu/~gohlke/pythonlibs/ 这个经常使用的第三方下载网站也没找到,于是检索了一下,使用国内镜像进行尝试并成功:

pip3 install jieba -i https://pypi.tuna.tsinghua.edu.cn/simple/

而制作图云的wordcloud可以直接使用“pip install wordcloud”下载。

此外,本次还涉及的库有:

# load data
import os

# word segmentation and word cloud
import jieba
import numpy as np
import PIL.Image as Image
from wordcloud import WordCloud

# build count matrix by the code
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值