统计txt中某个字符出现的次数r语言_Python小书3-文本英文单词统计

最新推荐文章于 2021-12-08 20:50:13 发布

weixin_39565021

最新推荐文章于 2021-12-08 20:50:13 发布

阅读量687

点赞数

文章标签：统计txt中某个字符出现的次数r语言统计一行文本的单词个数

之前写Python Web小书第三小节本来用的垃圾邮件的案例

三郎：Python贝叶斯推理垃圾邮件分类zhuanlan.zhihu.com

后来发现里面的东西，涉及到概率，程序太复杂了。。。哈哈哈

所以就想着，哪天重写一下，选来选去，觉得垃圾邮件分类里面的单词统计，可以深入给大家好好讲讲这个小案例。

这里选用的是一部英文哈利波特小说第一部：3496行，443725个字符

下面我们开始捋思路，我们拿到的是一部有很多单词和符号的小说，我们要做的事就是要对所有的单词出现的次数进行统计。

第一步，先读出整部小说的内容

第二步，对小说的内容进行清洗，只保留所有的单词

第三步，构建字典，遍历所有单词，进行次数统计

是不是感觉好简单，那我们上路吧！！！！！！！

首先我们先读取小说的全部内容

fp

打印输出如下

我们要把上图里面的这些符号干掉，有没有什么好办法呢，当然有啦，这就要用到我们的正则表达式，代码如下：

import

同时，我们发现一个单词如果在句首字母会大写，比如The和the如果不处理会被理解为两个词汇。于是我们继续更新代码

import

到现在为止，我们对初始文本做了过滤标点符号和统一大小写的预处理，下面就是把这个文本分割为一个个单词，代码如下

import

现在我们得到一个包含所有单词的列表，下面就可以进行单词统计了，首先生成空字典word_counter，然后循环遍历整个单词列表进行词数统计

import

因为上面看起来很别扭，我想按照顺序，一行行打印，于是我试着做如下操作

import

结果，报错，因为Dict不能同时对key和value同时遍历，所以有三种方式

#1.遍历键，然后索引到值

于是，需要将字典转化为列表，也就有了如下代码

import

因为控制台太短，无法全部显示，所以我们保存到文件处理，而且我们关注的字数统计，更核心的是哪些词出现的更多，于是有了如下代码

import

然后我们要注意，文件操作，打开一定要关闭，这里用到自动关闭的with语句，于是最终的代码，加了注释后如下

import

旅程结束，希望能够帮到你！

weixin_39565021

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
统计txt中某个字符出现的次数r语言_Python小书3-文本英文单词统计

之前写Python Web小书第三小节本来用的垃圾邮件的案例三郎：Python贝叶斯推理垃圾邮件分类zhuanlan.zhihu.com后来发现里面的东西，涉及到概率，程序太复杂了。。。哈哈哈所以就想着，哪天重写一下，选来选去，觉得垃圾邮件分类里面的单词统计，可以深入给大家好好讲讲这个小案例。这里选用的是一部英文哈利波特小说第一部：3496行，443725个字符下面我们开始捋思路，我们拿到的是一...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。