python字频、词频统计

#字频统计
# -*- coding: utf-8 -*-
# coding=utf-8

import collections

# 读取文本文件,把所有的汉字拆成一个list
f = open("D:\python\pra\推荐系统1-500.txt", 'r', encoding='utf-8')  # 打开文件,并读取要处理的大段文字
txt1 = f.read()
txt1 = txt1.replace('\n', '')  # 删掉换行符
txt1 = txt1.replace(',', '')  # 删掉逗号
txt1 = txt1.replace('。', '')  # 删掉句号
mylist = list(txt1)
mycount = collections.Counter(mylist)
for key, val in mycount.most_common(50):  # 有序(返回前10个)
    print(key, val)

在这里插入图片描述

#词频统计
# -*- coding: utf-8 -*-
# coding=utf-8

import jieba
import jieba.analyse

# text = "故宫的著名景点包括乾清宫、太和殿和午门等。其中乾清宫非常精美,午门是紫禁城的正门,午门居中向阳。"
text = ''
#jieba.load_userdict("jieba_dict.txt")  # 用户自定义词典 (用户可以自己在这个文本文件中,写好自定制
  • 2
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
Python中进行词频统计可以通过以下步骤实现: 1. 读取文本文件:首先,你需要使用Python的文件操作功能,打开并读取你要进行词频统计的文本文件。可以使用`open()`函数打开文件,并使用`read()`方法读取文件内容。 2. 文本预处理:在进行词频统计之前,通常需要对文本进行一些预处理操作,例如去除标点符号、转换为小写字母等。你可以使用Python的字符串处理方法来实现这些操作。 3. 分词:将文本分割成单个的词语。Python中有多种分词库可供选择,例如NLTK、jieba等。你可以根据自己的需求选择合适的分词库,并使用其提供的方法将文本分割成词语列表。 4. 统计词频:使用Python的字典数据结构来统计每个词语出现的次数。遍历分词后的词语列表,对每个词语进行计数,并将其作为键值对存储在字典中。 5. 排序输出:根据词频对字典中的键值对进行排序,并按照一定格式输出结果。你可以使用Python的内置函数`sorted()`对字典进行排序,并使用循环遍历输出结果。 下面是一个简单的示例代码: ```python import re from collections import Counter def word_frequency(file_path): # 读取文本文件 with open(file_path, 'r', encoding='utf-8') as file: text = file.read() # 文本预处理 text = text.lower() text = re.sub(r'[^\w\s]', '', text) # 分词 words = text.split() # 统计词频 word_count = Counter(words) # 排序输出 for word, count in sorted(word_count.items(), key=lambda x: x[1], reverse=True): print(f'{word}: {count}') # 调用函数进行词频统计 word_frequency('example.txt') ``` 请注意,上述代码仅为示例,你可以根据实际需求进行修改和优化。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值