python字频统计.

 

#文本词频统计.py

#定义函数:
def getFT():
    file=open(r'..\\Stu_pack\file\See You Again.txt') #打开文件
    f=file.read()
    f=f.lower()            #将文本里所有的字母都转换成小写
    for ch in '`~!@#$%^&*()_+={}[]|\:;\"\'<,>.?/':
        f.replace(ch,'')    #将所有的标点符号都用空格替代
    return f
    
txt=getFT()       #调用函数获得打开的文件的带空格的文本
txt=txt.split()   #将只有带空格的文本按空格分成每个单词
txtCount={}        #定义字典变量以备记录单词出现的次数和最后输出内容
for word in txt:
    txtCount[word]=txtCount.get(word,0)+1   #获取某单词的拼写和累加出现的次数

exc={'the','you','will','and','now','all'}    #将excludes里出现的单词删除掉
for word in exc:
    del(txtCount[word])

    

#print(txtCount.items())


item=list(txtCount.items())  #将字典数据转换成列表类型


item.sort(key=lambda x:x[1],reverse=True)  #将列表按第2列x[1]降序排序


print('{0:<10}{1:>5}'.format('word','count'))

print('_'*20)

for a,b in txtCount.items():
    if (len(a)>=3 and b>2):
        print(a,b)


'''
for i in range(5):
    a,b=item[i]
    print(a,b)
'''
#将结果内容以对应的格式打印出来
#'<'表示左对齐,'>'表示右对齐

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
python单词字频统计指的是使用Python编程语言统计一段文本中每个单词出现的次数。实现这个功能可以分为以下几个步骤: 1. 获取待统计的文本。可以通过打开文本文件读取或者直接在程序中定义字符串的方式获取文本。 2. 预处理文本。将文本中的标点符号、空格等非字母字符去除,只保留单词。可以使用正则表达式、字符串分割等方法来实现。 3. 统计单词出现次数。可以使用字典来存储单词以及对应的出现次数。遍历预处理后的文本,每当遇到一个新单词,如果字典中已经存在该单词,对应的计数加一;如果字典中不存在该单词,将该单词作为键,计数初始化为1存入字典。 4. 输出结果。按照单词出现次数从高到低或者按照字母顺序对字典进行排序,并输出单词和对应的出现次数。 示例代码如下: ```python import re from collections import Counter def word_frequency(text): # 预处理文本 text = re.sub(r'[^\w\s]', '', text.lower()) # 统计单词出现次数 word_counts = Counter(text.split()) # 按照出现次数排序 sorted_counts = sorted(word_counts.items(), key=lambda x: x[1], reverse=True) # 输出结果 for word, count in sorted_counts: print(word, count) # 测试代码 text = """ Python是一种简单易学但功能强大的编程语言。它具有清晰和简洁的语法,并且拥有丰富和强大的库。Python已经成为众多领域的首选语言,如Web开发、数据分析和人工智能等。Python单词字频统计能够帮助我们了解文本中不同单词的出现情况,是文本分析和处理的常用工具之一。 """ word_frequency(text) ``` 以上代码实现了对给定文本进行单词字频统计的功能。运行结果会按照出现次数从高到低的顺序输出每个单词及其出现次数。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值