【自然语言处理】最简单的词频统计

最新推荐文章于 2024-04-16 08:48:25 发布

御用厨师

最新推荐文章于 2024-04-16 08:48:25 发布

阅读量1k

点赞数

分类专栏：自然语言处理文章标签：自然语言处理 nlp

本文链接：https://blog.csdn.net/qq_45520647/article/details/119987881

版权

自然语言处理专栏收录该内容

13 篇文章 4 订阅

订阅专栏

因为NLTK库的出现，词频统计的方法更简单，结果也更加准确，NLTK的使用可参考：【自然语言处理】词性标注
在对英文文章实现较为简单的词频统计时，我们可以从以下几个细节入手

英文中两个词之间一定有空格隔开
对英文文章应该先进行小写处理
分词后带有逗号、句号等标点符号的词应该去标点符号
词频较小的词（比如<=3）可以忽略掉

核心代码如下：（contents是一个列表，每个元素是txt文件的每一行）

import string

dic = {}
t = []
for line in contents:           # 每一行
    for i in line:              # 去标点, string.punctuation:返回所有标点集
        if i in string.punctuation:
            line = line.replace(i, " ")
    t = line.lower().split()    # 转小写，并根据空格分词
    for word in t:              # 每个词
        if word not in dic:
            dic[word] = 1
        else:
            dic[word] = dic[word] + 1

res = sorted(dic.items(), key=operator.itemgetter(1), reverse=True)     # 排序的结果是list类型
for item in res:
    if item[1] > 3:
        print(item)

参考：
[1] 利用python做词频统计
[2] python3小技巧之：妙用string.punctuation

御用厨师

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
【自然语言处理】最简单的词频统计

因为NLTK库的出现，词频统计的方法更简单，结果也更加准确，NLTK的使用可参考：【自然语言处理】词性标注在对英文文章实现较为简单的词频统计时，我们可以从以下几个细节入手英文中两个词之间一定有空格隔开对英文文章应该先进行小写处理分词后带有逗号、句号等标点符号的词应该去标点符号词频较小的词（比如<=3）可以忽略掉核心代码如下：（contents是一个列表，每个元素是txt文件的每一行）import stringdic = {}t = []for line in contents
复制链接

扫一扫