对教育数字化讯息进行文本分析（python）

mercury_1t

已于 2023-07-20 11:53:08 修改

阅读量634

点赞数

文章标签： python 开发语言

于 2022-07-12 11:01:32 首次发布

本文链接：https://blog.csdn.net/mercury_1t/article/details/125647262

版权

在写关于教育数字化的东西，希望能嵌入一些数据分析，而非纯纯的语言性表述，在查阅了这方面的各种文献后，以下这篇让我觉得在方法上有一定借鉴意义：

[1]钟羽, 王觅, 郭心懿. 基础教育信息化研究热点与趋势分析——基于知识图谱的视角[J]. 现代教育科学, 2021(6):6.

文章研究流程大致遵循文献检索、词频统计、相异矩阵生成、聚类分析，最后通过多维尺度描绘知识图谱。

现在人在行业外，手头的工具自然有限，好在anaconda还是装了，用jupyter notebook还可以进行一些简单的动作。

素材

在“宝山教育”公众号以“教育数字化”为关键词检索历史信息，将相关的21篇内容保存到txt中，作为本次分析的素材。（由于没搞定微信的批量下载，一篇篇点开时大致过了下内容，将相关性不大的，比如只是年度工作总结中提了一下这词的文章就略去，最后剩下21篇手动复制）。

流程

1、数据读取

2、词频分析

3、共现矩阵及相异矩阵构建

4、层次聚类分析

准备工作

中文文本分析，分词是最基础的，“jieba”是其中比较常用的一个库。

一般缺少的库都会直接使用“pip install xxx”的方式下载，但在jieba的pip安装时发生了time out 报错。在https://www.lfd.uci.edu/~gohlke/pythonlibs/ 这个经常使用的第三方下载网站也没找到，于是检索了一下，使用国内镜像进行尝试并成功：

pip3 install jieba -i https://pypi.tuna.tsinghua.edu.cn/simple/

而制作图云的wordcloud可以直接使用“pip install wordcloud”下载。

此外，本次还涉及的库有：

# load data
import os

# word segmentation and word cloud
import jieba
import numpy as np
import PIL.Image as Image
from wordcloud import WordCloud

# build count matrix by the code

最低0.47元/天解锁文章

mercury_1t

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
对教育数字化讯息进行文本分析（python）

在写关于教育数字化的东西，希望能嵌入一些数据分析，而非纯纯的语言性表述。文章流程大致遵循文献检索、词频统计、相异矩阵生成、聚类分析，以“宝山教育”公众号“教育数字化”相关的21篇作为本次分析的素材。...
复制链接

扫一扫