python统计单词出现次数_用python统计单词出现频率

本文介绍了如何使用Python字典数据结构统计文本中每个单词的出现频率。通过处理文本,去除标点符号,将单词转换为小写并添加到字典中,然后按频率排序并打印结果。代码还提供了过滤功能,只显示词频大于2且单词长度大于3的结果。
摘要由CSDN通过智能技术生成

用python的字典数据结构可以很方便地用来统计一篇文章的每个单词出现的频率。在文本相似度计算中,就经常需要用到一个单词在文章中的出现频率,进而可以根据两篇文章共有单词在相应文章中的频率比较,来计算相似度。python的强大功能在很大程度上依赖于字典这种数据结构。字典是一种可变的数据结构,和列表相似。它是一种基于key=>value的数据结构,value值可变,但key是不可变变量,value可以是任何一种数据对象,可以是字符串、整数、列表以及字典。

Code:

def add_words(word,words_dict):

"""把单词添加到words_dict字典里,并计数"""

if word in words_dict:

words_dict[word]+=1

else:

words_dict[word]=1

import string

def process_line(line,words_dict):

"""处理文件每行数据"""

line=line.strip()

words_list=line.split()

for word in words_list:

word=word.lower().strip(string.punctuation) #删除进过分割的单词的尾部的一些符号

add_words(word,words_dict) #调用add_words函数,把单词插入到words_dict字典中

def print_result(words_dict):

"""按格式输出words_dict中的数据"""

val_k

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值