python如何实现其他文本的统计_如何使用Python3对一个txt文件进行词频统计？

最新推荐文章于 2021-11-26 00:00:00 发布

weixin_39611382

最新推荐文章于 2021-11-26 00:00:00 发布

阅读量2.2k

点赞数 1

文章标签： python如何实现其他文本的统计

需要完成的工作有：

1、将文本信息从txt文件中读取出来

2、将字符串表示的文本信息进行分词处理

3、进行词频统计

可以这样子实现上面三个步骤：

1、使用with open ...打开文件，然后然后使用f.read()将文件中的内容读取出来。（如果文件较大可以分多次读取）

2、使用jieba库的cut函数进行分词（这里建议看看分词的情况是否满意，如果有些词没有按照自己想要的情况来分，可以使用jieba.add_word函数将自定义的词告诉jieba分词工具，具体的用法网上也有教程）

2.5、分词之后建议进行一次停用词的去除，否则可能会影响后续的词频统计结果。去除的方法可以自行编写for循环遍历词语列表，一一判断并去除即可。

3、jieba.cut分词后得到的是一个列表，列表中的每一项是一个词语。统计词频可以使用的方法很多，自己写个for循环判断也是可以的。不过推荐使用Python内置库collections里面的Counter进行统计，这样代码比较简洁美观。假设分词后得到的列表名为word_list，统计词频只需要这样写：word_counts=collections.Counter(word_list)

(记得先导入collections包)

如果结果太多，只想看词频最高的10个词，可以这样：

word_counts.most_common(10)

weixin_39611382

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
python如何实现其他文本的统计_如何使用Python3对一个txt文件进行词频统计？

需要完成的工作有：1、将文本信息从txt文件中读取出来2、将字符串表示的文本信息进行分词处理3、进行词频统计可以这样子实现上面三个步骤：1、使用with open ...打开文件，然后然后使用f.read()将文件中的内容读取出来。（如果文件较大可以分多次读取）2、使用jieba库的cut函数进行分词（这里建议看看分词的情况是否满意，如果有些词没有按照自己想要的情况来分，可以使用jieba.add...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。