这是第四节的内容,主要为垃圾邮件自动识别与分类算法。
简单来说,对于垃圾邮件的预测实际上就是一个分类问题,要实现垃圾邮件的预测,我们可以对垃圾邮件进行特征提取,然后进行分类实现。
具体来说:
1. 对邮件进行切词
2. 构造词典
3. 转为稀疏向量
4. 实现贝叶斯算法
5. 通过贝叶斯算法训练数据
6. 通过贝叶斯算法测试数据
贝叶斯算法的原理就是,对于已知类别,通过特征计算该事物分别属于各个类的概率,概率最大的那个类别就是该事物的估计类别。
首先我们使用python实现贝叶斯算法:
class Bayes:
def __init__(self):
self.length = -1
self.labelcount = dict()
self.vect