机器学习笔记(三)之朴素贝叶斯

最新推荐文章于 2023-12-02 22:47:23 发布

gzj_1101

最新推荐文章于 2023-12-02 22:47:23 发布

阅读量697

点赞数

分类专栏： machine learning

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/gzj_1101/article/details/78072542

版权

朴素贝叶斯

朴素贝叶斯算法仍然是流行的十大挖掘算法之一，该算法是有监督的学习算法，解决的是分类问题，如客户是否流失、是否值得投资、信用等级评定等多分类问题。该算法的优点在于简单易懂、学习效率高、在某些领域的分类问题中能够与决策树、神经网络相媲美。但由于该算法以自变量之间的独立（条件特征独立）性和连续变量的正态性假设为前提，就会导致算法精度在某种程度上受影响。接下来我们就详细介绍该算法的知识点及实际应用。

数学模型

贝叶斯公式

贝叶斯定理由英国数学家贝叶斯 ( Thomas Bayes 1702-1761 ) 发展，用来描述两个条件概率之间的关系，比如 P(A|B) 和 P(B|A)。按照乘法法则，可以立刻导出：P(A∩B) = P(A)*P(B|A)=P(B)*P(A|B)。如上公式也可变形为：
P(A|B) = P(B|A)*P(A)/P(B)
这里写图片描述

朴素贝叶斯

与贝叶斯的区别：基于贝叶斯，但是各个特征条件都是独立的

朴素贝叶斯得思想

朴素贝叶斯分类是一种十分简单的分类算法，叫它朴素贝叶斯分类是因为这种方法的思想真的很朴素，朴素贝叶斯的思想基础是这样的：对于给出的待分类项，求解在此项出现的条件下各个类别出现的概率，哪个最大，就认为此待分类项属于哪个类别。

朴素贝叶斯正式定义

设x-{a1,a2,a3…..am}为一个待分类项
有类别集合C={y1,y2,y3,y4…yn}
计算P(y1|x),P(y2|x),P(y3|x)…..
如果P(yk|x)=max{P(y1|x),P(y2|x),P(y3|x)…..P(yn|x)}
关键在于如何计算第三步中的概率,我们可以进行如下操作
找到已知分类的待分类集合
统计各个类别下各个属性出现的概率，即
如果各个属性是相互独立的，那么根据贝叶斯定理有如下推导
因为分母对于所有类别为常数，所以我们只需要将分子最大化即可，又因为各属性是相互独立的，所以有

上面讲完了朴素贝叶斯的数学原理，下面结合分档分类进行具体的分析

使用朴素贝叶斯进行文档分析

机器学习中一个重要的分类是文档的自动分类，在分档分类中整个文档是实类，而文档中的某些元素构成特征。虽然电子邮件是一种不断增加的文本，但是我们可以根据文本中出现的高频词汇对文章进行分类

朴素贝叶斯的一般过程

收集数据：可以使用任何方法。我们是用rss。
准备数据：需要数值型或者bool型数据。
分析数据：有大量特征是，使用直方图
训练数据：计算不同数据特征的条件概率。
测试算法：计算错误率。

使用Python对文本进行分类

要获取文本中的特征，首先要拆分文本。这里的特征来自文本的词条，一个词条是字符的任意组合。可以把词条想象为单词，也可以使用非单词词条，如ip地址，url或者其他字符。然后将每一个文本表示为一个词条向量，其中词条在文本中出现记为1，否则记为0。

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。