用Python对自己的文章做文本分析

本文介绍了使用Python进行文本分析的过程,包括文本预处理、使用TF-IDF模型提取关键词,以及构建关键词共现网络。通过分析个人在简书上的文章,发现了学习和生活两个主要内容领域,揭示了文章之间的关联性。
摘要由CSDN通过智能技术生成

新型冠状病毒疫情加剧,让人闲的不行。重新打开我的简书之后,发现我在简书上也写了72篇文章了……

想“温故而知新”一下,但是在家总是慵懒,就算是自己写的文章也不想看。但是又十分好奇自己在过去的一年多的时间里到底写了啥,于是决定用python对自己的文章进行简单的文本分析,分析目标是:

  1. 得到每一篇文章的关键词;

  2. 使用这些关键词生成所有文本的关键词共现网络。

一、文本预处理

首先先导出并解压自己的文章,简书的导出非常方便,这也是我喜欢用简书编辑器的原因(包括本文也是用简书编辑器写的),写出来的东西都还可以是自己的。

一共有8个文件夹,由于所有文本都是使用markdown写的,所以文本预处理比较简单,仅仅需要去除特殊符号(如:#、\n等)。在对具体文本进行分析时候发现,许多文本中均出现了许多代码,并且部分文章中英文混杂。转念一想,文章以中文为主,并且代码部分与其他部分关联较小,无论是用TF-IDF方法还是TextRank都不会出现在关键词的前列,所以在预处理阶段暂时不处理这个问题。核心代码如下(其实很简单):

f = open(text_file, 'r', encoding='UTF-8')
data = f.read()
str = re.sub('[^\w]', '', data) #去除特殊符号(如:#、\n等)

二、TF-IDF模型提取关键词

在提取关键词之前,需要先对每个文本进行分词,中文分词的方法包括jieba、SnowNlp等。(引自:Jieba、NLTK等中英文分词工具进行分词)本文使用jieba分词方法。

import jieba

TF-IDF模型是最简单的提取关键词的模型,学术的解释如下。

TF-IDF(term frequency–inverse document frequency,词频-逆向文件频率)是一种用于信息检索(information retrieval)与文本挖掘(text mining)的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。(引自:关键字提取算法TF-IDF和TextRank(python3))

一个词是不是关键词,在TF-IDF模型看来&#x

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值