统计txt中某个字符出现的次数r语言_Python小书3-文本英文单词统计

之前写Python Web小书第三小节本来用的垃圾邮件的案例

三郎:Python贝叶斯推理垃圾邮件分类​zhuanlan.zhihu.com

后来发现里面的东西,涉及到概率,程序太复杂了。。。哈哈哈

061f3101b236cf388b3da00be107e81c.png

所以就想着,哪天重写一下,选来选去,觉得垃圾邮件分类里面的单词统计,可以深入给大家好好讲讲这个小案例。

这里选用的是一部英文哈利波特小说第一部:3496行,443725个字符

98190fb2e0f84b14c57fb382380b3a51.png

下面我们开始捋思路,我们拿到的是一部有很多单词和符号的小说,我们要做的事就是要对所有的单词出现的次数进行统计。

第一步,先读出整部小说的内容

第二步,对小说的内容进行清洗,只保留所有的单词

第三步,构建字典,遍历所有单词,进行次数统计

是不是感觉好简单,那我们上路吧!!!!!!!

首先我们先读取小说的全部内容

fp 

打印输出如下

bf357136d014a6e7d7a664215474187e.png

我们要把上图里面的这些符号干掉,有没有什么好办法呢,当然有啦,这就要用到我们的正则表达式,代码如下:

import 

98a364c70e8254d0bb49be195e1d8f8d.png

同时,我们发现一个单词如果在句首字母会大写,比如The和the如果不处理会被理解为两个词汇。于是我们继续更新代码

import 

bc15df4662422ae58c6a8c4b9ca9fa33.png

到现在为止,我们对初始文本做了过滤标点符号和统一大小写的预处理,下面就是把这个文本分割为一个个单词,代码如下

import 

5d269f2445266b16d30896d6374751e5.png

现在我们得到一个包含所有单词的列表,下面就可以进行单词统计了,首先生成空字典word_counter,然后循环遍历整个单词列表进行词数统计

import 

0e703ffc42a9f89c31b2d8951e4ff54b.png

因为上面看起来很别扭,我想按照顺序,一行行打印,于是我试着做如下操作

import 

结果,报错,因为Dict不能同时对key和value同时遍历,所以有三种方式

#1.遍历键,然后索引到值

于是,需要将字典转化为列表,也就有了如下代码

import 

cf11b052c0eacf78b0de73e386587281.png

因为控制台太短,无法全部显示,所以我们保存到文件处理,而且我们关注的字数统计,更核心的是哪些词出现的更多,于是有了如下代码

import 

f2a1757e9b0485a2fb062db2329d71fe.png

然后我们要注意,文件操作,打开一定要关闭,这里用到自动关闭的with语句,于是最终的代码,加了注释后如下

import 

旅程结束,希望能够帮到你!

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值