新型冠状病毒疫情加剧,让人闲的不行。重新打开我的简书之后,发现我在简书上也写了72篇文章了……
想“温故而知新”一下,但是在家总是慵懒,就算是自己写的文章也不想看。但是又十分好奇自己在过去的一年多的时间里到底写了啥,于是决定用python对自己的文章进行简单的文本分析,分析目标是:
得到每一篇文章的关键词;
使用这些关键词生成所有文本的关键词共现网络。
一、文本预处理
首先先导出并解压自己的文章,简书的导出非常方便,这也是我喜欢用简书编辑器的原因(包括本文也是用简书编辑器写的),写出来的东西都还可以是自己的。
一共有8个文件夹,由于所有文本都是使用markdown写的,所以文本预处理比较简单,仅仅需要去除特殊符号(如:#、\n等)。在对具体文本进行分析时候发现,许多文本中均出现了许多代码,并且部分文章中英文混杂。转念一想,文章以中文为主,并且代码部分与其他部分关联较小,无论是用TF-IDF方法还是TextRank都不会出现在关键词的前列,所以在预处理阶段暂时不处理这个问题。核心代码如下(其实很简单):
f = open(text_file, 'r', encoding='UTF-8')
data = f.read()
str = re.sub('[^\w]', '', data) #去除特殊符号(如:#、\n等)
二、TF-IDF模型提取关键词
在提取关键词之前,需要先对每个文本进行分词,中文分词的方法包括jieba、SnowNlp等。(引自:Jieba、NLTK等中英文分词工具进行分词)本文使用jieba分词方法。
import jieba
TF-IDF模型是最简单的提取关键词的模型,学术的解释如下。
TF-IDF(term frequency–inverse document frequency,词频-逆向文件频率)是一种用于信息检索(information retrieval)与文本挖掘(text mining)的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。(引自:关键字提取算法TF-IDF和TextRank(python3))
一个词是不是关键词,在TF-IDF模型看来&#x