MLiA 贝叶斯分类总结及决策树的一个小问题

本文探讨了朴素贝叶斯分类方法在垃圾邮件识别中的应用,详细阐述了训练集的构建、概率计算以及测试数据的处理。同时,解释了在分类过程中如何避免概率计算的小数下溢问题。此外,还回顾了决策树中的多数表决原则,用于解决特征分类后类别归属的不确定性。
摘要由CSDN通过智能技术生成

昨天睡觉时候突然思考了下朴素贝叶斯分类方法,发现之前理解不透,突然搞不明白怎么分类的了,今天又看了看,才算大概了解了,比如是垃圾邮件分类。

1.训练集:首先对垃圾邮件和非垃圾邮件进行分词,并记录邮件分类。此处词汇集合用来记录所有训练数据的所有词汇,然后对于每封邮件去判断集合中的词是否在当前邮件出现,形成一个矩阵。

2.分别计算垃圾邮件和非垃圾邮件中集合中的每个词分别出现次数,出现概率。训练阶段就算完成了。

3.测试数据:(其实此处的数据使用的是留存交叉验证法:即取垃圾邮件,非垃圾邮件中的少量数据作为测试数据,因为有明确的分类,可以检验测试效果)对于每条测试邮件数据,计算邮件中的每个词出现的次数及概率(此处的概率不进行取对数)。

分类时候使用的公式为:所有训练数据中每个单词出现在词汇集合的频率矩阵 叉乘 当前测试邮件的每个词在词汇集合出现的频率矩阵 再乘以把它预测为垃圾邮件(pAbuse)或者非垃圾邮件(1-pAbuse)的概率。

朴素贝叶斯分类认为,对于一条新的数据来说,如果把它预测为垃圾邮件的概率和非垃圾邮件的概率哪个较大,哪个就预测为最终的分类结果。

注:由于每个概率都特别小,相乘以后由于计算机运算特点,导致下溢出为0,此时对预测概率求对数,就会出现

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值