机器学习笔记(三)之朴素贝叶斯

朴素贝叶斯

朴素贝叶斯算法仍然是流行的十大挖掘算法之一,该算法是有监督的学习算法,解决的是分类问题,如客户是否流失、是否值得投资、信用等级评定等多分类问题。该算法的优点在于简单易懂、学习效率高、在某些领域的分类问题中能够与决策树、神经网络相媲美。但由于该算法以自变量之间的独立(条件特征独立)性和连续变量的正态性假设为前提,就会导致算法精度在某种程度上受影响。接下来我们就详细介绍该算法的知识点及实际应用。

数学模型

贝叶斯公式

贝叶斯定理由英国数学家贝叶斯 ( Thomas Bayes 1702-1761 ) 发展,用来描述两个条件概率之间的关系,比如 P(A|B) 和 P(B|A)。按照乘法法则,可以立刻导出:P(A∩B) = P(A)*P(B|A)=P(B)*P(A|B)。如上公式也可变形为:
P(A|B) = P(B|A)*P(A)/P(B)
这里写图片描述

朴素贝叶斯

与贝叶斯的区别:基于贝叶斯,但是各个特征条件都是独立的

朴素贝叶斯得思想

朴素贝叶斯分类是一种十分简单的分类算法,叫它朴素贝叶斯分类是因为这种方法的思想真的很朴素,朴素贝叶斯的思想基础是这样的:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。

朴素贝叶斯正式定义
  1. 设x-{a1,a2,a3…..am}为一个待分类项
  2. 有类别集合C={y1,y2,y3,y4…yn}
  3. 计算P(y1|x),P(y2|x),P(y3|x)…..
  4. 如果P(yk|x)=max{P(y1|x),P(y2|x),P(y3|x)…..P(yn|x)}
    关键在于如何计算第三步中的概率,我们可以进行如下操作
  5. 找到已知分类的待分类集合
  6. 统计各个类别下各个属性出现的概率,即
    这里写图片描述
  7. 如果各个属性是相互独立的,那么根据贝叶斯定理有如下推导
    这里写图片描述
  8. 因为分母对于所有类别为常数,所以我们只需要将分子最大化即可,又因为各属性是相互独立的,所以有
    这里写图片描述

上面讲完了朴素贝叶斯的数学原理,下面结合分档分类进行具体的分析

使用朴素贝叶斯进行文档分析

机器学习中一个重要的分类是文档的自动分类,在分档分类中整个文档是实类,而文档中的某些元素构成特征。虽然电子邮件是一种不断增加的文本,但是我们可以根据文本中出现的高频词汇对文章进行分类

朴素贝叶斯的一般过程
  1. 收集数据:可以使用任何方法。我们是用rss。
  2. 准备数据:需要数值型或者bool型数据。
  3. 分析数据:有大量特征是,使用直方图
  4. 训练数据:计算不同数据特征的条件概率。
  5. 测试算法:计算错误率。

使用Python对文本进行分类

要获取文本中的特征,首先要拆分文本。这里的特征来自文本的词条,一个词条是字符的任意组合。可以把词条想象为单词,也可以使用非单词词条,如ip地址,url或者其他字符。然后将每一个文本表示为一个词条向量,其中词条在文本中出现记为1,否则记为0。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值