2020年度教育部立项热点的词云图分析
吴良海
作为三大基金之一,教育部人文社科基金的申报与立项广受学界关注。教育部2020年度立项的2622项人文社科基金,究竟哪些领域与方向的选题更受青睐与关注?能否通过严谨、精准而直观的统计分析予以展示,以期为未来基金申报与选题确定提供参考和指导?在这方面,词频统计和词云图分析可以“大展拳脚”。
本文以2020年度教育部立项公示文件为原始依据,提供了基于Python的文本分析“五步法”。
一、获取原始数据
首先登录教育部人文社会科学网主页(https://www.sinoss.net/),下载PDF格式的2020年度立项文件“2020教育部项目.PDF”。
二、启动Python编辑器
打开Visual Studio Code编辑器终端,输入“ipython3”指令以启动IPython shell会话。
三、安装第三方库
在终端中依次输入“pip install pdfplumber”(图1),“pip install xlwt”(图2),安装PDF格式文件转换为Excel格式文件必须的第三方库pdfplumber和xlwt。
图片1 安装pdfplumber
图片2 安装xlwt
四、编写代码
运行过程见图3和图4。
图片3 程序执行中
图片4 程序运行结束
五、
将“2020教育部项目.xls”转换为utf格式的文本文件“教育部20年度项目.txt”,并编写如下代码以绘制词云图。
运行上述Python程序文件jybxm.py,即可得到教育部2020年度立项热点的词云图。
图5 教育部2020年度立项热点的词云图
词频统计结果表明,2020年度教育部人文社科立项热点前十位依次是“大学生”、“大数据”、“粤港澳”、“青少年”、“一带一路”、“1949”、“人工智能”、“制造业”、“高质量”、“消费者”等(图6),图5的词云图展现犹为鲜明、直观。
图6 2020年度教育部人文社科立项热点:
词频统计前10位
·· THE END ··
往期回顾: 熠熠美人蕉 派生天骄 清平乐 天山雪莲 编辑:杨露 审核:李娟实证会计入门一点通