python统计单词词频_Python 统计英文词频（txt格式)

最新推荐文章于 2022-03-12 23:29:53 发布

weixin_39951929

最新推荐文章于 2022-03-12 23:29:53 发布

阅读量441

点赞数

文章标签： python统计单词词频

importredeffre(TargetName,desName):'''打开 TargetName 文本，统计总单词数、独特的单词数、单词词频，并写入 desName 文件中'''dict= {} #存放单词

number = 0 #统计累计文本总单词数

uniqueNum = 0 #统计不重复的单词的个数

#打开文本

with open(TargetName,'r',encoding='utf-8') as f:for line in f: #逐行读取

#使用正则表达式替换除了字母和空白符以外的所有其他符号

line = re.sub(r'[^\w\s-]+', ' ', line)

word= line.split() #将句子分割成单词列表

for w in word: #遍历单词列表

number += 1 #每遍历一个单词，总单词数就+1

w = w.lower() #单词转换成全小写的形式

if w not in dict: #如果单词不在dict里面，就把单词放进去，设置这个单词的词频为1，并且 duniqueNum+1

dict[w] = 1uniqueNum+= 1

else: #如果单词已经存在，就将词频数+1

dict[w] = dict[w]+1

#格式化打印

print(f'{"Total words": <20} {number}')print(f'{"Unique words": <20} {uniqueNum}')#将词频写入文件

with open(desName, 'w', encoding='utf8') as f:#先写入总词数、不重复单词数的信息

f.write(f'{"Total words": <20} {number}\n')

f.write(f'{"Unique words": <20} {uniqueNum}\n')

f.write('-----------------------------\n')for i in sorted(dict.items(), key=lambda x: x[1], reverse=True): #将字典降序排序，并遍历

f.write(f'{i[0]: <20} {i[1]}\n')print(f'{i[0]: <20} {i[1]}')if __name__=="__main__":#要分析的文件的路径

name = r'C:\blood.txt'

#生成的词频的路径

desName = 'C:\dict.txt'fre(name,desName)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39951929

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

python英文文本词频统计,python英文文章词频统计

Fixf4556的博客

02-23

1034

大家好，本文将围绕利用python进行英文词频统计展开说明，python英文文本词频统计是一个很多人都想弄明白的事情，想搞清楚python英文文章词频统计需要先了解以下几个事情。

使用Python进行英文词频统计

aieraisiji的博客

03-11

2万+

对一篇英文文章进行词频统计重点在于内容去噪和归一化，可用split()进行分词。本文以《飘》为例，统计词频最高的前十位。 1.读取文件，通过lower()、replace()函数将所有单词统一为小写，并用空格替换特殊字符。 def gettext(): txt = open("piao.txt","r",errors='ignore').read() txt = txt.lower...

参与评论您还未登录，请先登录后发表或查看评论

python英文单词词频统计_如何用python实现英文短文的双词频统计

weixin_39978101的博客

11-25

252

匿名用户1级2017-05-13 回答简单版：#!/usr/bin/envpython3importreimportjiebafromcollectionsimportCounterfname='counttest.txt'withopen(fname)asf:s=f.read()pattern=re.compile(r'[a-zA-Z]+\-?[a-zA-Z]*')...

Python实现文本词频统计——读取英文文本进行词频统计并输出

Mr.鹏

03-07

1万+

TF-IDF（term frequency–inverse document frequency）词频--反转文件频率，是一种用于情报检索与文本挖掘的常用加权技术，用以评估一个词对于一个文件或者一个语料库中的一个领域文件集的重复程度。词频统计为学术研究提供了新的方法和视野，同时也可用于分析大数据文本，用以获取有效信息。

Python简单方法实现英文文本词频统计

这里是努力做好AC吧

03-12

4250

求解问题: 给定一段英文字符串,要求统计其中所有单词出现的频率,将结果封装进字典解题思路: 使用到的方法: replac("a","b") 将字符串中的a字符替换成b split() 将字符串以空格符,制表符,回车符为标志分割成单独元素并封装为列表步骤: 一 . 因为给出的文本为英文,则可以使用空格和标点符号来划分各个单词.首先处理标点符号,可以使用replace()方法先将其中出现的标点符号替换为空格(替换为空格是为了方便后续操作),然后在使用spli...

Q.rar_python统计词频_分词_基于机器学习_词频 _词频统计

07-15

本教程主要涉及使用Python语言进行中文文本的分词和词频统计，并结合机器学习的方法。让我们详细探讨这些知识点。首先，**Python统计词频**是数据分析的基础步骤之一。Python拥有丰富的库支持这种操作，如`...

上市公司年报_Python中jieba_数字化_关键词词频统计_程序+年报样例

12-13

标题和描述中提到的知识点主要集中在使用Python的jieba库进行上市公司年报的数字化处理和关键词词频统计。这里，我们将详细探讨如何运用Python和jieba库来实现这一目标，以及为何这种技术对于理解和分析上市公司年报...

python分词统计词频_python利用多种方式来统计词频（单词个数）

weixin_39745724的博客

11-20

1110

python的思维就是让我们用尽可能少的代码来解决问题。对于词频的统计，就代码层面而言，实现的方式也是有很多种的。之所以单独谈到统计词频这个问题，是因为它在统计和数据挖掘方面经常会用到，尤其是处理分类问题上。故在此做个简单的记录。统计的材料如下：document = ['look', 'into', 'my', 'eyes', 'look', 'into', 'my', 'eyes','the',...

python分词统计词频_python 实现中文分词统计

weixin_39907316的博客

11-24

823

总是看到别人用Python搞各种统计，前端菜鸟的我也来尝试了一把。有各种语义分析库在，一切好像并不是很复杂。不过Python刚开始看，估计代码有点丑。一、两种中文分词开发包THULAC（THU Lexical Analyzer for Chinese）由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包，具有中文分词和词性标注功能。THULAC具有如下几个特点：能力强。利用我...

python分词统计词频_-用python找出一篇文章中词频最高的20个单词

weixin_39603588的博客

11-24

1980

python统计一个大文件中很多小文件里面的词频#!/usr/bin/envpython3.6fromcollectionsimportCounterfromfunctoolsimportreducefromoperatorimportaddfrompathlibimportPathps=Path().glob('*.txt')c=reduce(add,[Cou...

如何用python统计英语文章词频？

03-12

统计单词词频，能够按照单词次数排列，统计英语高频词。可用于自我学习，对于想快速提升英语的可以快速把握所有高频词。打蛇打七寸，把握关键点。也可用于培训机构，针对考试高频词，快速提分，

python如何打开txt文件、并算词频_Python 合并多个TXT文件并统计词频的实现

weixin_39854681的博客

11-21

387

需求是：针对三篇英文文章进行分析，计算出现次数最多的 10 个单词逻辑很清晰简单，不算难，使用 python 读取多个 txt 文件，将文件的内容写入新的 txt 中，然后对新 txt 文件进行词频统计，得到最终结果。代码如下：(在Windows 10，Python 3.7.4环境下运行通过)# coding=utf-8import reimport os# 获取源文件夹的路径下的所有文件sou...

python实现读取文件英文词频统计并写入到文件

dcjmessi的博客

09-22

3762

# _*_ coding: utf-8 _*_ # 作者：dcjmessi import os from collections import Counter # 假设要读取文件名为read，位于当前路径 filename = 'read.txt' # 当前进程工作目录 dirname = os.getcwd() fname = os.path.join(dirname, filename) ...

python读取文件里的单词，统计词频，输出到文件

jaket5219999的博客

11-03

1万+

程序用python3运行时，可将当前路径下的aa.txt文件读取后，按空格分割成一系列的单词，然后统计这些单词出现的次数，按频率从大到小排序后，写入ar.txt文件中。涉及的语法有：1、中英文混合对齐；2、list高级排序，一组升，一组降；3、获取当前路径、文件读写、路径与文件名组合、随机数生成。。。...

【干货】Python：中英文词频统计

大家好，欢迎来到鱼尾的博客！

08-25

1万+

Python中英文词频统计

python 统计词频后输出结果到Excel和txt文档

songrenqing

07-28

1万+

分词的应用场景还是蛮多的，比如电商里面的产品用户评价，每个商品的评价数很多，由于是大量的文本，需要从这些文本找出评价的关键字，这个时候分词就能派上用场；再比如，做文本分析，热点词统计都会用到分词。整体思路就是利用python中的jieba库，对每一行文字进行分词处理，处理之后的结果放在list（列表）中。遍历列表，重复的值就计数，留下唯一的值作为key。引用库 import jieba...

python正则表达式学习及其运用实例（陆续更新）

qq_44418077的博客

10-16

446

什么是正则表达式以及我遇见的一些例子总结什么是正则表达式提示：以下是本篇文章正文内容，下面案例可供参考我遇见的一些例子慢慢遇见，慢慢添加~ a{2,3} a? 0/1 a+ >0 a* >1 . 任意一个字符 \d 所有数字 \D 所有非数字 \s \S [abc] [^abc] \d+\.\d+ \[[^\[]+\] Ret=re.match("(\d+)([+-])(\d+)",T)#数字 + - 数字 \d+ 0-9任意数字一次或任意次 ..

Python实例分析——文本词频统计

python统计单词词频_Python 统计英文词频 （txt格式)

python统计单词词频_Python 统计英文词频（txt格式)