python数据挖掘实战笔记——文本挖掘（3):词频统计

小柴~

于 2018-09-25 19:34:17 发布

阅读量2.9k

点赞数 2

分类专栏： python 文章标签： python数据挖掘

本文链接：https://blog.csdn.net/weixin_42695959/article/details/82843886

版权

概念：
词频：指某个词在该文档中出现的次数。
需要用到的模块：numpy

import numpy
#进行词频统计        
segStat = segmentDataFrame.groupby(
            by="segment"
        )["segment"].agg({
            "计数":numpy.size
        }).reset_index().sort_index(
            by=["计数"],
            ascending=False
        )
        #对单个词进行分组计数，重置索引，并将计数列按照倒序排序。

结果可以看到，排在前面的都是一些无效的标点符号或者副词，这就需要去除停用词。
在这里插入图片描述
过滤停用词的两个方法：
1.在最后的分词结果中过滤掉停用词。

#移除停用词
stopwords = pandas.read_csv(
    r"C:\Users\www12\Desktop\data\2.4\StopwordsCN.txt", 
    encoding='utf8', 
    index_col=False
)
#导入停用词文件，.isin()判断某个词是否在停用词中，~表示取反，这样就过滤掉了停用词了
fSegStat = segStat[~segStat.segment.isin(stopwords.stopword)]

最低0.47元/天解锁文章

小柴~

关注

2
点赞
踩
26

收藏

觉得还不错? 一键收藏
0
评论
python数据挖掘实战笔记——文本挖掘（3):词频统计

概念：词频：指某个词在该文档中出现的次数。需要用到的模块：numpyimport numpy#进行词频统计 segStat = segmentDataFrame.groupby( by="segment" )["segment"].agg({ "计数":numpy.size }).reset_i...
复制链接

扫一扫

专栏目录