python如何实现其他文本的统计_如何使用Python3对一个txt文件进行词频统计?

需要完成的工作有:

1、将文本信息从txt文件中读取出来

2、将字符串表示的文本信息进行分词处理

3、进行词频统计

可以这样子实现上面三个步骤:

1、使用with open ...打开文件,然后然后使用f.read()将文件中的内容读取出来。(如果文件较大可以分多次读取)

2、使用jieba库的cut函数进行分词(这里建议看看分词的情况是否满意,如果有些词没有按照自己想要的情况来分,可以使用jieba.add_word函数将自定义的词告诉jieba分词工具,具体的用法网上也有教程)

2.5、分词之后建议进行一次停用词的去除,否则可能会影响后续的词频统计结果。去除的方法可以自行编写for循环遍历词语列表,一一判断并去除即可。

3、jieba.cut分词后得到的是一个列表,列表中的每一项是一个词语。统计词频可以使用的方法很多,自己写个for循环判断也是可以的。不过推荐使用Python内置库collections里面的Counter进行统计,这样代码比较简洁美观。假设分词后得到的列表名为word_list,统计词频只需要这样写:word_counts=collections.Counter(word_list)

(记得先导入collections包)

如果结果太多,只想看词频最高的10个词,可以这样:

word_counts.most_common(10)

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值