python统计单词出现次数_用python统计单词出现频率

最新推荐文章于 2024-07-29 10:38:56 发布

weixin_39922868

最新推荐文章于 2024-07-29 10:38:56 发布

阅读量5.1k

点赞数 2

文章标签： python统计单词出现次数

本文介绍了如何使用Python字典数据结构统计文本中每个单词的出现频率。通过处理文本，去除标点符号，将单词转换为小写并添加到字典中，然后按频率排序并打印结果。代码还提供了过滤功能，只显示词频大于2且单词长度大于3的结果。

摘要由CSDN通过智能技术生成

用python的字典数据结构可以很方便地用来统计一篇文章的每个单词出现的频率。在文本相似度计算中，就经常需要用到一个单词在文章中的出现频率，进而可以根据两篇文章共有单词在相应文章中的频率比较，来计算相似度。python的强大功能在很大程度上依赖于字典这种数据结构。字典是一种可变的数据结构，和列表相似。它是一种基于key=>value的数据结构，value值可变，但key是不可变变量，value可以是任何一种数据对象，可以是字符串、整数、列表以及字典。

Code:

def add_words(word,words_dict):

"""把单词添加到words_dict字典里，并计数"""

if word in words_dict:

words_dict[word]+=1

else:

words_dict[word]=1

import string

def process_line(line,words_dict):

"""处理文件每行数据"""

line=line.strip()

words_list=line.split()

for word in words_list:

word=word.lower().strip(string.punctuation) #删除进过分割的单词的尾部的一些符号

add_words(word,words_dict) #调用add_words函数，把单词插入到words_dict字典中

def print_result(words_dict):

"""按格式输出words_dict中的数据"""

val_k

最低0.47元/天解锁文章

weixin_39922868

关注

2
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。