一、问题描述
在做文本数据分析时,经常遇到需要做词频分析,而做词频分析又经常需要统计出现次数最高的几个词,下面代码给出了基于Python的文本数据统计,基本流程为:首先读取一个文本文件,之后进行分词,再去除停用词,最后统计出现次数最多的N个词。
二、Python代码
import jieba
from collections import Counter
############################################
# 功能:获取文本文件内容
# 输入参数
# filename:待读取的文本文件名
# 返回值
# txtConts:读取的文本内容
def GetTxtDataFromFile( filename ):
with open( filename, mode = 'r' ) as fp:
txtConts = fp.read()
return txtConts
############################################
# 功能:分词,并去除分词结果中的停用词
# 输入参数
# txtConts:原始文本
# stopWord:停用词
# 返回值
# cutList:去除停用词之后的分词结果
def CutWithStopWord( txtConts, stopWord ):
cutList = []
s