python 关于使用collections 统计词频率

最新推荐文章于 2024-05-03 21:10:03 发布

DJ_joker

最新推荐文章于 2024-05-03 21:10:03 发布

阅读量503

点赞数

分类专栏：备忘文章标签： python

本文链接：https://blog.csdn.net/DJ_joker/article/details/90668250

版权

备忘专栏收录该内容

6 篇文章 0 订阅

订阅专栏

这是要统计词频的一个简单文本

在这里插入图片描述

这是简单的代码块

import re
with open('word.txt','r') as f:
    f=f.read()
    r=re.split('\W+', f) #“\W+”是除了英文以外的格式（把空格回车都切割掉）
    d=dict().fromkeys(r,0) 
    for x in r:
        d[x]+=1
    print(d)

如果我们用collections，过程会简单很多，并且效率可以提高好多倍。

import re
from collections import Counter
with open('word.txt','r') as f:
    f=f.read()
    c=Counter(re.split('\W+',f)) 
    print(c )

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

DJ_joker

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

利用Collections模块的Counter来进行词频统计

那人独钓寒江雪

11-24

766

text = "I Love python I Love java I learn python" # 拆分 words = text.split() # 去掉重复值 diff_words = list(set(words)) # 统计单词个数的列表统计单词个数的列表 counts= [] for i in range(len(diff_words)): counts.append(0) 遍历单词列表，统计各个单词的个数 for i in range(len(words)): for

Python使用collections模块统计单词频率（出现次数）

若如初见

09-21

1696

collections模块简介1.collections模块1.1 Counter计数器，主要用来记录每一个元素出现的次数1.2 namedtuple生成可以使用名字来访问元素内容的tuple1.3 deque双端队列，可以快速的在两端追加和推出对象1.4 defalutdict带有默认值的字典 1.collections模块在内置数据类型（dict、list、set、tuple）的基础上，collections模块还提供了几个额外的数据类型：Counter、deque、defaultdict、named

参与评论您还未登录，请先登录后发表或查看评论

Python 遍历词频统计

02-11

Python编写的用于遍历词频统计的工具

python统计词频

diaoren6730的博客

10-05

271

一、程序分析（1）将文件读入缓冲区（dst指文本文件存放路径，设置成形参，也可以不设，具体到函数里设置） def process_file(dst): # 读文件到缓冲区 try: # 打开文件 txt=open(dst,"r") except IOError as s: print s ...

jieba库词频统计_用好collections模块，对李白诗集进行字频统计

weixin_29275257的博客

12-30

270

1、从一个计数问题开始初学Python的人很可能会遇到字频统计这样的练习题，那么很容易会想到使用for循环来做。可是for循环的效率是很低的，而且会涉及到嵌套循环，代码及其冗余。比如给定一个字符串，对字母进行计数统计： Python is a popular programming language一般会这样写：my_str = "Python is a popular programming ...

re,collections统计词频的方法

Pichairen

08-06

401

re.findall("[a-z]+","lihaiyu abc") Out[3]: ['lihaiyu', 'abc'] re.findall("[a-z]","lihaiyu abc") Out[4]: ['l', 'i', 'h', 'a', 'i', 'y', 'u', 'a', 'b', 'c'] # re 是一个正则化的匹配包 import re, collections # +...

python实现统计文本中单词出现的频率详解

09-19

在Python编程中，统计文本中单词出现的频率是一项常见的任务，特别是在自然语言处理（NLP）和文本分析领域。这个任务可以帮助我们理解文本的主要主题、关键词以及词汇的分布情况。下面将详细解释如何使用Python实现...

详细分析Python collections工具库

09-16

Python的collections工具库是Python标准库中的一部分，它提供了一系列高效且功能丰富的数据结构，用于增强内置的容器数据类型。collections模块包含的容器类能够帮助开发者更方便地处理数据，提高代码的简洁性和效率...

使用Python 统计高频字数的方法

09-19

本篇文章将介绍如何使用Python实现一个名为`count_words()`的函数，它能够接收一个字符串`s`和一个整数`n`作为参数，返回字符串`s`中出现频率最高的`n`个单词及其出现次数。首先，我们需要创建一个空字典`w`来存储...

python 对给定可迭代集合统计出现频率,并排序的方法

09-20

在统计完元素的出现频率后，如果需要对元素按照频率进行排序，我们可以使用Python的内置函数sorted()或者列表的sort()方法。这两个方法都可以接收一个参数，也就是排序的依据。在文档中提供了两种方法来对统计后的...

python文件词频统计

01-17

读取给定文本文件，统计单词，计算TOP 10 有一个文件sample.txt，对其进行单词统计，不区分大小写，并显示单词重复最多的10个单词。

python 词频统计

藏经阁

04-10

445

import re # 正则表达式库 import collections # 词频统计库 import numpy as np # numpy数据处理库 import jieba # 结巴分词 from PIL import Image # 图像处理库 import matplotlib.pyplot as plt # 图像展示库 f=open("Text_word_frequency_sta...

文本分析-使用Python做词频统计分析

最新发布

youyouxiong的博客

05-03

891

如果你需要更复杂的文本处理，比如去除停用词（stop words），可以使用。方法可以返回一个包含单词及其对应频率的列表，按照频率从高到低排序。方法将所有文本转换为小写，以保证词频统计时不区分大小写。确保我们已经下载了所需的分词和停用词数据集。方法用于将文本分割成单词列表，然后我们使用。函数进行分词，然后去除停用词，并再次使用。以下是一个简单的Python脚本，使用。在这个脚本中，我们首先使用正则表达式。来移除文本中的标点符号，然后使用。来统计每个单词出现的次数。在这个例子中，我们首先使用。

Python统计词频的几种方法

一个大三的python爱好者

02-20

1万+

本文介绍python统计词频的几种方法，供大家参考

jieba分词+collections 词频统计+WordCloud 词云

积一时之步，臻千里之遥程

04-30

2365

jieba分词 “结巴”中文分词：做最好的 Python 中文分词组件请参见：https://github.com/fxsjy/jieba 安装 pip install jieba -i https://pypi.tuna.tsinghua.edu.cn/simple 特点支持四种分词模式：模式描述精确模式试图将句子最精确地切开，适合文本分析全模式把句子...

【干货】Python：中英文词频统计

大家好，欢迎来到鱼尾的博客！

08-25

1万+

Python中英文词频统计

Python应用篇——词频统计

qq_41904305的博客

10-14

1869

Python做小说的词频统计