MLiA 贝叶斯分类总结及决策树的一个小问题

最新推荐文章于 2022-02-06 12:18:18 发布

尽拣寒枝不肯栖

最新推荐文章于 2022-02-06 12:18:18 发布

阅读量696

点赞数

分类专栏：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_27231343/article/details/51741842

版权

深度学习专栏收录该内容

61 篇文章

订阅专栏

本文探讨了朴素贝叶斯分类方法在垃圾邮件识别中的应用，详细阐述了训练集的构建、概率计算以及测试数据的处理。同时，解释了在分类过程中如何避免概率计算的小数下溢问题。此外，还回顾了决策树中的多数表决原则，用于解决特征分类后类别归属的不确定性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

昨天睡觉时候突然思考了下朴素贝叶斯分类方法，发现之前理解不透，突然搞不明白怎么分类的了，今天又看了看，才算大概了解了，比如是垃圾邮件分类。

1.训练集：首先对垃圾邮件和非垃圾邮件进行分词，并记录邮件分类。此处词汇集合用来记录所有训练数据的所有词汇，然后对于每封邮件去判断集合中的词是否在当前邮件出现，形成一个矩阵。

2.分别计算垃圾邮件和非垃圾邮件中集合中的每个词分别出现次数，出现概率。训练阶段就算完成了。

3.测试数据：（其实此处的数据使用的是留存交叉验证法：即取垃圾邮件，非垃圾邮件中的少量数据作为测试数据，因为有明确的分类，可以检验测试效果）对于每条测试邮件数据，计算邮件中的每个词出现的次数及概率（此处的概率不进行取对数）。

分类时候使用的公式为：所有训练数据中每个单词出现在词汇集合的频率矩阵叉乘当前测试邮件的每个词在词汇集合出现的频率矩阵再乘以把它预测为垃圾邮件（pAbuse）或者非垃圾邮件（1-pAbuse）的概率。

朴素贝叶斯分类认为，对于一条新的数据来说，如果把它预测为垃圾邮件的概率和非垃圾邮件的概率哪个较大，哪个就预测为最终的分类结果。

注：由于每个概率都特别小，相乘以后由于计算机运算特点，导致下溢出为0，此时对预测概率求对数，就会出现

这种公式，可以手动推导出来的。

4.最后进行对测试结果评估：因为测试数据是从训练数据中获取，因此有分类，将此分类与预测分类比较，计算预测正确的频率。

最后说一下之前决策树中的一个困惑，今天又回头看了下。是决策树对于一条数据当进行了所有的特征分类以后，仍然不能判断该数据具体属于哪条分类（即可以分到两类或者更多个分类中），书中说采取多数表决，当时没细看是怎么多数表决的，今天看了下：

其中当所有的特征都用完时，采用多数表决的方法来决定该叶子节点的分类，即该叶节点中属于某一类最多的样本数，那么我们就说该叶节点属于那一类！

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。