解析Python文本处理代码——以哈姆雷特小说为例统计高频词汇

最新推荐文章于 2024-04-16 23:48:48 发布

often_

最新推荐文章于 2024-04-16 23:48:48 发布

阅读量1.5k

点赞数 14

文章标签： pycharm python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/often_/article/details/134620527

版权

前景：

在Python中处理文本数据是一种常见的任务，这需要使用到多种字符串操作和数据结构。本文将详细解释下面这段代码的功能，它以《哈姆雷特》为文本源，进行了一系列的处理，并统计了每个单词出现的次数。

操作步骤：

1.打开文件

2.读取文件内容

3.装换为小写

4.替换特殊操作符

5.分词

6.统计单词出现的次数

7.排序后输出

具体操作

第一步打开文件：创建一个函数名，使用open()函数用于打开一个文件并赋值于它。这个函数需要两个参数：文件的路径和文件的编码方式。在这里，文件的路径是C:\Users\86151\Desktop\hamlet.txt.(文件的路径可以通过右击文件在文件属性中找到)，编码方式是utf-8。utf-8是一种可以包含任何Unicode字符的编码方式，这意味着它可以处理包括英文和中文在内的多种语言。

第二步读取文件：创建一个函数名使其被赋值使用read()函数读取整个文件的内容。

第三步转换为小写：使用lower()函数将读取到的文件内容转换为小写。这样做的目的是可以避免在统计单词时因为大小写不同而导致的重复计数。而且大小写对于一个单词来说通常不影响其意义。

第四步替换特殊符号：在这个步骤中，代码定义了一个包含许多特殊符号的字符串str2，然后遍历这个字符串，将文本中的每一个特殊符号使用replace( )函数替换为一个空格。这样做是为了清理文本，去除不需要的字符。

第五步分词：分词是将一段连续的文本分割成一个个独立的单词或词语的过程。在这里，hamlet_text.split()方法使用空格作为分隔符，将字符串分割为单词。

第六步统计单词出现次数：在这个步骤中，代码使用字典来统计每个单词出现的次数。字典的键是单词，值是出现次数。对于每个单词，如果它在字典中已经存在，就增加它的计数；如果它不存在，就将它添加到字典中并设置计数为1。这个过程使用的是字典的get函数。

第七部排序和输出：最后，代码将字典转换为列表，然后按照单词出现的次数进行降序排序。然后它打印出前10个出现次数最多的单词和它们的出现次数。格式化的输出使得结果更加整齐和易读。

整段代码如下：

（本人使用的编译器是pycharm）

关注

14
点赞
踩
10

收藏

觉得还不错? 一键收藏
打赏
1
评论
解析Python文本处理代码——以哈姆雷特小说为例统计高频词汇

本文将详细解释下面这段代码的功能，它以《哈姆雷特》为文本源，进行了一系列的处理，并统计了每个单词出现的次数。在这个步骤中，代码使用字典来统计每个单词出现的次数。字典的键是单词，值是出现次数。最后，代码将字典转换为列表，然后按照单词出现的次数进行降序排序。，然后遍历这个字符串，将文本中的每一个特殊符号使用replace( )函数替换为一个空格。是一种可以包含任何Unicode字符的编码方式，这意味着它可以处理包括英文和中文在内的多种语言。分词是将一段连续的文本分割成一个个独立的单词或词语的过程。
复制链接

扫一扫

often_ CSDN认证博客专家 CSDN认证企业博客

码龄2年

广州工商学院

13: 原创

130万+: 周排名

17万+: 总排名

2万+: 访问

: 等级

396: 积分

343: 粉丝

265: 获赞

11: 评论

284: 收藏

私信

关注

热门文章

分类专栏

Python 3篇
数据结构 1篇
结构体 3篇
爬虫 1篇
C语言 3篇

最新评论

C语言实现万年历（含代码详细解读）
2301_81312009: 有全部的完整代码吗
python——字典
CSDN-Ada助手: 恭喜您撰写了第13篇博客！标题为“python——字典”，非常有趣的主题选择。字典是Python编程中非常重要的数据结构之一，它的灵活性和高效性让人印象深刻。在您的博客中，您对字典的介绍和用法是否可以更进一步呢？或许可以探讨一些高级应用，例如字典的嵌套、字典的常用方法等等。期待您在下一篇博客中继续分享您的知识，我相信您的专业见解会给读者带来更大的收获！
python——列表
CSDN-Ada助手: 恭喜您写了第12篇博客！看来您对Python的列表有着深入的研究和理解。希望您可以继续坚持创作，分享更多关于Python的知识和经验。下一步，也许您可以考虑写一些实际案例或者是一些高级技巧，这样可以让读者更加深入地了解列表的应用和特性。期待您的下一篇博客！
数据结构——线性表（详细配代码讲解）
CSDN-Ada助手: 恭喜你写了第9篇博客！标题中提到的数据结构——线性表的详细配代码讲解确实是一个非常重要且有用的主题。你的解释和示例代码都非常清晰易懂，让读者能够更好地理解线性表的概念和实现。不过，我认为你可以进一步扩展你的创作内容，例如介绍线性表在实际应用中的常见问题和解决方法，或者与其他数据结构进行对比和分析。这样可以帮助读者更全面地理解线性表的应用场景和优劣势。期待你的下一篇博客！加油！
解析Python文本处理代码——以哈姆雷特小说为例统计高频词汇
CSDN-Ada助手: 首先恭喜您撰写了这篇关于Python文本处理的博客，标题也非常吸引人。通过以哈姆雷特小说为例，统计高频词汇，展示了Python在文本处理方面的强大功能。不过，我想提出一个建议，下一步您可以尝试结合实际案例，比如新闻报道或者社交媒体评论，展示Python在分析实时数据方面的应用。期待您更多的创作，谢谢您的分享。

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

often_ 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。