python--更干净的词频统计

最新推荐文章于 2024-08-18 07:00:00 发布

spyao

最新推荐文章于 2024-08-18 07:00:00 发布

阅读量1.5w

点赞数 4

分类专栏： python学习文章标签： python 函数 collections Counter 词频

本文链接：https://blog.csdn.net/spynao/article/details/50187419

版权

本文继续探讨Python中使用Counter进行词频统计的优化，针对中文、大小写和单词标点问题提出解决方案。通过字符串的isalpha()方法过滤中文，使用lower()处理大小写，并利用re.split()更灵活地切割字符串。

摘要由CSDN通过智能技术生成

上篇文章（python--10行代码搞定词频统计）我们介绍了利用Counter模块轻松搞定词频统计的方法，因为重点是介绍模块的使用，代码显得比较粗糙。

import re,collections
def get_nums(file):
    with open (file) as f:
        words_box=[]
        for line in f:                         
            if re.match(r'[a-zA-Z0-9]*',line):#避免中文影响
                words_box.extend(line.strip().split())               
    return collections.Counter(words_box)
print(get_nums('emma.txt')+get_nums('伊索寓言.txt'))

（注：文件下载地址：