概念:
词频:指某个词在该文档中出现的次数。
需要用到的模块:numpy
import numpy
#进行词频统计
segStat = segmentDataFrame.groupby(
by="segment"
)["segment"].agg({
"计数":numpy.size
}).reset_index().sort_index(
by=["计数"],
ascending=False
)
#对单个词进行分组计数,重置索引,并将计数列按照倒序排序。
结果可以看到,排在前面的都是一些无效的标点符号或者副词,这就需要去除停用词。
过滤停用词的两个方法:
1.在最后的分词结果中过滤掉停用词。
#移除停用词
stopwords = pandas.read_csv(
r"C:\Users\www12\Desktop\data\2.4\StopwordsCN.txt",
encoding='utf8',
index_col=False
)
#导入停用词文件,.isin()判断某个词是否在停用词中,~表示取反,这样就过滤掉了停用词了
fSegStat = segStat[~segStat.segment.isin(stopwords.stopword)]
2.