python统计英文句子每个单词字数_Python小书3-文本英文单词统计

最新推荐文章于 2024-07-04 23:16:22 发布

weixin_39636610

最新推荐文章于 2024-07-04 23:16:22 发布

阅读量2k

点赞数 1

文章标签： python统计英文句子每个单词字数

之前写Python Web小书第三小节本来用的垃圾邮件的案例三郎：Python贝叶斯推理垃圾邮件分类zhuanlan.zhihu.com

后来发现里面的东西，涉及到概率，程序太复杂了。。。哈哈哈

所以就想着，哪天重写一下，选来选去，觉得垃圾邮件分类里面的单词统计，可以深入给大家好好讲讲这个小案例。

这里选用的是一部英文哈利波特小说第一部：3496行，443725个字符

下面我们开始捋思路，我们拿到的是一部有很多单词和符号的小说，我们要做的事就是要对所有的单词出现的次数进行统计。

第一步，先读出整部小说的内容

第二步，对小说的内容进行清洗，只保留所有的单词

第三步，构建字典，遍历所有单词，进行次数统计

是不是感觉好简单，那我们上路吧！！！！！！！

首先我们先读取小说的全部内容

fp = open("HarryPotter1.txt",'r')#文件名，r为读模式

print(fp.read())

打印输出如下

我们要把上图里面的这些符号干掉，有没有什么好办法呢，当然有啦，这就要用到我们的正则表达式，代码如下：

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。