之前写Python Web小书第三小节本来用的垃圾邮件的案例三郎:Python贝叶斯推理垃圾邮件分类zhuanlan.zhihu.com
后来发现里面的东西,涉及到概率,程序太复杂了。。。哈哈哈
所以就想着,哪天重写一下,选来选去,觉得垃圾邮件分类里面的单词统计,可以深入给大家好好讲讲这个小案例。
这里选用的是一部英文哈利波特小说第一部:3496行,443725个字符
下面我们开始捋思路,我们拿到的是一部有很多单词和符号的小说,我们要做的事就是要对所有的单词出现的次数进行统计。
第一步,先读出整部小说的内容
第二步,对小说的内容进行清洗,只保留所有的单词
第三步,构建字典,遍历所有单词,进行次数统计
是不是感觉好简单,那我们上路吧!!!!!!!
首先我们先读取小说的全部内容
fp = open("HarryPotter1.txt",'r')#文件名,r为读模式
print(fp.read())
打印输出如下
我们要把上图里面的这些符号干掉,有没有什么好办法呢,当然有啦,这就要用到我们的正则表达式,代码如下: