【文本文件单词数统计】统计《哈姆雷特》作品文本文件中除一些冠词、代词、连接词之外出现最多的单词，打印数量最多的前十个单词

最新推荐文章于 2023-11-26 02:30:00 发布

海岛码农

最新推荐文章于 2023-11-26 02:30:00 发布

阅读量3.4k

点赞数 2

分类专栏： Python程序设计文章标签： python pycharm 统计学

本文链接：https://blog.csdn.net/qq_59049513/article/details/122582729

版权

Python程序设计专栏收录该内容

17 篇文章

订阅专栏

本文介绍了一个Python程序，用于统计莎士比亚作品《哈姆雷特》中最常出现的单词，并排除了一些常见的冠词、代词和连接词。通过分析文本并使用简单的文本处理技巧，我们能够发现这部文学作品中的主要用词趋势。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

统计是计算科学、管理学、社会学、数学等诸多领域的基本问题，相关问题、方法和技术组成了一门学科，即“统计学”

问题描述如下：

利用python程序统计《哈姆雷特》作品中出现最多的单词，设置排除词库，排除一些冠词、代词、连接词等。

Hamlet全集文本文件部分内容如下：

如有需要可联系博主获取Hamlet全集文本文件。

程序代码如下：

excludes = {"the", "and","to","that","his","this","but","of", "you",
            "a", "an","i","we","it", "my","me", "in","your","he"}#排除词库
def getText():
    txt = open("hamlet.txt", "r").read()
    txt = txt.lower()
    for ch in '!"#$%&()*+,-./:;<=>?@[\\]^_‘{|}~':
        txt = txt.replace(ch, " ")  # 将文本中特殊字符替换为空格
    return txt
hamletTxt = getText()
words = hamletTxt.split()
counts = {}
for word in words:
    counts[word] = counts.get(word, 0) + 1
for word in excludes:
    del (counts[word])
items = list(counts.items())
items.sort(key=lambda x: x[1], reverse=True)
print("Hamlet出现最多的的单词为：")
for i in range(10):
    word, count = items[i]
    print("{0:<10}{1:>5}".format(word, count))

程序运行结果如下：