Python实例分析——文本词频统计

最新推荐文章于 2023-10-25 22:16:54 发布

m0_67393157

最新推荐文章于 2023-10-25 22:16:54 发布

阅读量1.6k

点赞数 1

分类专栏：面试学习路线阿里巴巴文章标签： python 开发语言 pycharm

本文链接：https://blog.csdn.net/m0_67393157/article/details/125228953

版权

本文通过Python分析了数字文本pi、英文文本《哈姆雷特》和中文文本《三国演义》的词频统计。在数字文本部分，统计了pi小数点后1000位中各数字的出现频率；英文文本中，提取并展示了《哈姆雷特》的前10个高频词；中文文本部分，统计了《三国演义》中出场次数最多的15位人物。文章详细阐述了词频统计的思路和步骤，包括文本预处理、计数、排序等关键操作，并提供了完整代码。

摘要由CSDN通过智能技术生成

基于中国大学mooc网嵩天老师的《Python语言程序设计》课程实例

一、数字文本 pi

问题描述：
统计并输出圆周率pi小数点后1000位中各数字出现频率并排序

完整代码：

txt = open('pi1000.txt', 'r').read()    # 获取文本文件
counts = {}    # 创建空字典

for num in txt:
    if num == ' ':    # 排除数字文本中可能出现的空格
        continue
    else:
        counts[num] = counts.get(num, 0) + 1  # 统计词频并在字典中创建键值对
items = list(counts.items())       # 将无序的字典类型转换为可排序的列表类型
items.sort(key=lambda x: x[1], reverse=True)   # 以元素的第二列进行从大到小排序

for i in range(10):
    num, count = items[i]
    print("{:<5}:{:>5}".format(num, count))    # 格式化输出排序结果

结果展示：
在这里插入图片描述