python英文文本词频统计,python英文文章词频统计

大家好,给大家分享一下利用python进行英文词频统计,很多人还不知道这一点。下面详细解释一下。现在让我们来看看!

词频统计是指在文本中计算每个单词出现的次数,是文本处理中一个最基本的任务。在Python中,可以使用多种方法实现词频统计,包括使用字典、列表、Counter类等数据结构python实现猴子跳台阶

一、使用字典

其中,使用字典实现词频统计是最基本的方法之一。具体实现步骤如下:

将文本转换为小写,并分割成单词列表。

text = "This is a sample text with several words. Here are some more words. And here are some more."  
words = text.lower().split()

2.创建一个空字典,用于存储每个单词的出现次数。

word_counts = {}

3.遍历单词列表,如果单词已经在字典中出现过,则将其出现次数加1,否则将其加入字典中并设置其出现次数为1。 

for word in words:  
    if word in word_counts:  
        word_counts[word] += 1  
    else:  
        word_counts[word] = 1

4.打印每个单词的频率。

for word, count in word_counts.items():  
    print(word, count)

输出结果为:

this 1  
is 1  
a 1  
sample 1  
text 1  
with 1  
several 1  
words. 1  
here 2  
are 2  
some 2  
more 2  
and 1

二、使用Counter类

除了使用字典实现词频统计外,Python的collections模块中还提供了Counter类,可以方便地统计可迭代对象中元素的出现次数。使用Counter类实现词频统计的代码如下:

from collections import Counter  
  
text = "This is a sample text with several words. Here are some more words. And here are some more."  
words = text.lower().split()  
word_counts = Counter(words)  
for word, count in word_counts.items():  
    print(word, count)

输出结果与之前使用字典实现词频统计的结果相同。

word_counts.items()的数据类型是dict_items,可以先用dict()转换成字典,再做后续处理。

  • 4
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值