Python进行词频统计

最新推荐文章于 2024-05-03 21:10:03 发布

tao3741

最新推荐文章于 2024-05-03 21:10:03 发布

阅读量850

点赞数 1

文章地址：http://blog.163.com/datamining_123/blog/static/218037022201422435414115/

1.测试文本：

test.txt

2.测试文本内容：

this is just for test

这只是用来测试的

this is just for test

这只是用来测试的

3.代码及解释如下：

import jieba

def doc2matrix(doc):

x=open(doc,'r')

y=x.read()#读入所有内容

z1=jieba.cut(y)#对所有内容进行分词

z2=[]

for i in z1:

z2.append(i)#将分词结果变成list

token=u"';?，。,.!、()（） "#标点符号

filter=[i for i in z2 if i not in token]#去除所有标点符号

d={}

for i in filter:

if d.has_key(i):

d[i]+=1

else:

d[i]=1

for keys,values in d.iteritems():

print keys+':'+str(values)

print '/'.join(filter)#输出分词结果

if __name__=='__main__':

doc2matrix(r'd:\desktop\test.txt')

4.执行结果如下：

>>> runfile('D:/desktop/untitled0.py', wdir=r'D:/desktop')

的:2

just:2

for:2

this:2

is:2

这:2

只是:2

测试:2

test:2

用来:2

this/is/just/for/test/

/这/只是/用来/测试/的/

/this/is/just/for/test/

/这/只是/用来/测试/的

from collections import Counter
    c = Counter()
with open('a.txt','r',encoding='utf-8') as f:
    for line in f.readlines():
        words = line.split()
        c1 = Counter(words)
        c.update(c1)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

tao3741

关注关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Python进行词频统计

统计词频
复制链接

扫一扫

Python程序设计之词频统计

LeeYotta的博客

05-13

2029

Python程序设计之词频统计

用python对英语文章进行词频统计（以hamlet为例）

weixin_64118613的博客

09-20

978

python-6.6-实例十-对英语文章进行词频统计（以hamlet为例）。去除冠词代词、连接词等语法型词汇

参与评论您还未登录，请先登录后发表或查看评论

Python词频统计

最新发布

youyouxiong的博客

05-03

654

如果你需要更复杂的文本处理，比如去除停用词（stop words），可以使用。方法可以返回一个包含单词及其对应频率的列表，按照频率从高到低排序。方法将所有文本转换为小写，以保证词频统计时不区分大小写。确保我们已经下载了所需的分词和停用词数据集。方法用于将文本分割成单词列表，然后我们使用。函数进行分词，然后去除停用词，并再次使用。以下是一个简单的Python脚本，使用。在这个脚本中，我们首先使用正则表达式。来移除文本中的标点符号，然后使用。来统计每个单词出现的次数。在这个例子中，我们首先使用。

Python字典简单实现词频统计

Pandas_007的博客

10-31

7129

需要统计一本小说中某个人（主角）名字，或者某个关键词在文章中出现的次数，由于字数太多我们不可能人为的慢慢去计数，这时我们可以根据程序来自动获得其次数。首先对文中进行分词->对每个词建立键->以此遍历每个词->如果字典中有该词->则其值+1否则设为1并创建该词的键。根据字典的性质，以此关键词或人名作为字典的键，出现次数作为其字典的值。思路：如果该单词已经在字典中存在（键存在）则对应的键加一。如果该单词不存在，则创建键并值设置为1。用于后续记录各单词的频次。Python实现英文词频统计。简单高效实用字典几行代码

Python实现文本词频统计（嵩天老师）

m0_61903191的博客

04-02

8348

实例10：文本词频统计 引用文本英文文本：Hamet https://python123.io/resources/pye/hamlet.txt 中文文本：《三国演义》 https://python123.io/resources/pye/threekingdoms.txt

Python-英文小说词频统计

热门推荐

wujing1_1的博客

10-28

20万+

import operator import re # 1) 统计出文本中的单词的词频，找出词频最高和最低的单词及其词频，并输出。 # 这个是结果 result = {} # 主函数入口 if __name__ == "__main__": try: f = open(r"文本解析器.txt", "r", encoding="UTF-8") ...

python进行词频统计的三种方式

03-14

python词频统计, 可视化展示使用pyecharts

Python之词频统计

04-20

以上就是Python进行词频统计的基本流程，结合jieba库处理中文文本，利用nltk处理英文文本，同时考虑后端的数据库交互和API设计，能实现高效、灵活的词频统计系统。在实际应用中，还可以根据需求进行更复杂的数据分析...

python文件词频统计

01-17

读取给定文本文件，统计单词，计算TOP 10 有一个文件sample.txt，对其进行单词统计，不区分大小写，并显示单词重复最多的10个单词。

基于python的词频统计源码

08-17

【Python词频统计源码详解】在Python编程中，词频统计是一项常用的任务，它能够帮助我们分析文本数据，找出最常出现的词汇，对于文本挖掘、自然语言处理（NLP）等领域尤其重要。本篇将详细介绍基于Python的词频...

用Trie树实现词频统计和单词查询

10-07

一个简单的C语言程序：用Trie树实现词频统计和单词查询

Python读取文件后进行词频统计

算法与编程之美

11-26

6261

1引言本文解决由粉丝提出的问题。2问题我们在使用python函数获取文件后，有时需要对该文件进行词频统计。本文将通过对英文文件的读取和中文文件的读取进行讲解。3 方法一．统计英文文档中的......

用python做词频统计

zhangxiaomei1952的博客

03-28

9458

假设有一个本地的txt文件，相对其进行词频统计，可以这样写：import time path='C:\\Users\\zhangxiaomei\\Desktop\\Walden.txt' with open(path,'r') as text: words=text.read().split() print(words) for word in words:

python词频统计实验报告_Python实验报告八

weixin_39684898的博客

02-04

3497

安徽工程大学Python程序设计班级：物流191姓名：汤振宇学号：319050108成绩：日期：2020/06/04指导老师：修宇【实验目的】：掌握读写文本文件或 CSV 文件，进而对数据进行处理的方法。【实验条件】：PC机或者远程编程环境【实验内容】：完成二个编程题。1)水浒传词频统计水浒传-词频统计描述使用词频统计的方法，生成《水浒传》出场次数最多的10个人物的姓名。‪‬‪‬‪‬‪‬‪‬...

python统计词频的方法

学习专栏，期待交流与成长

02-16

3069

利用Counter的字典from collections import Counter total_counts = Counter() sentence='hello world' for word in sentence.split(" "): total_counts[word] += 1

python进行词频统计_如何利用Python进行文本词频统计

weixin_39595310的博客

12-03

3600

欢迎点击「算法与编程之美」↑关注我们！本文首发于微信公众号："算法与编程之美"，欢迎关注，及时了解更多此系列文章。问题描述Python在自然语言处理这个方面，有其天然的优势：简单，快捷。所以我们经常会遇到利用Python从一篇文档中，统计文本词频的问题。以《三国演义》这部名著为例，文中哪些人物的出场次数最多呢？让我们用Python来解决看看吧！解决方案在实际计算中，我们常常遇到需要同时处理多个数据...

python之统计句子中的词频次数

每天进步一丢丢

04-23

1万+

1.贴题题目来自MOOC 《用Python玩转数据》（南京大学）第四周编程作业对于一个已分词的句子（可方便地扩展到统计文件中的词频）：我/是/一个/测试/句子/，/大家/赶快/来/统计/我/吧/，/大家/赶快/来/统计/我/吧/，/大家/赶快/来/统计/我/吧/，/重要/事情/说/三遍/！可以用collections模块中的Counter()函数方便地统计词频，例如可...

python之统计句子中的词频

qq_39579290的博客

06-21

1900

一：题目要求对于一个已分词的句子（可方便地扩展到统计文件中的词频）：我/是/一个/测试/句子/，/大家/赶快/来/统计/我/吧/，/大家/赶快/来/统计/我/吧/，/大家/赶快/来/统计/我/吧/，/重要/事情/说/三遍/！可以用collections模块中的Counter()函数方便地统计词频，例如可用如下代码： import collections import copy s =...

如何运用Python进行词频统计

04-10

可以使用Python中的Counter类进行词频统计。具体代码如下： ```python from collections import Counter text = "通过爬虫获取到的文本数据，我们可以用Python做一些简单的文本分析，如词频统计。" # 将文本分词 ...

“相关推荐”对你有帮助么？

非常没帮助
没帮助
一般
有帮助
非常有帮助

提交