分类算法---朴素贝叶斯算法

1.数据特征类型    

朴素贝叶斯的算法根据数据的类型可以分为两类,一类是样本属性特征值是离散型,第二类是属性特征值为连续型,下面我会基于两类模型来介绍这个算法。

       1.属性是离散型,类的先验概率可以通过训练各类样本出现的次数来估计

       2.属性是连续型,有两种方法,将连续属性范围值划分为各个离散区间,这种方法不太好控制区间的大小,不太实用。第二种方法是,可以假设连续变量服从某种概率分布,然后使用训练数据估计分布的参数,高斯分布通常被用来表示连续属性的类条件概率分布。

        高斯分布有两个参数,均值和方差.

         均值计算公式

                                                224921_GTvA_1403215.png  (公式1)

          方差计算公式

                                            225342_DLgR_1403215.png   (公式2)

        高斯分布概率密度函数 

                                              224246_Qlov_1403215.png (公式3)

 

 2.贝叶斯公式原型

                   230822_IrkJ_1403215.png(公式4)

                  解释  d是每个X的属性个数,[x1,x2,x3,x4.....xd]每个属性,P(X)对于每个后验概率来说是固定不变的,所以,可以不计。

                  X实体属于Y分类的判断条件是根据Max[P(Yi|X)]来判断X实体属于哪个分类Y。

3.数据离散型贝叶斯使用例子

                    例子:概率模型:评分数据

评分数据

 物品1物品2物品3物品4物品5
Alice1332
用户124224
用户213351
用户345233
用户411521

根据用户1到用户4的用户数据,来预测Alice对物品5的评分,这里可以使用贝叶斯模型,分别计算Alice对物品5评分为1,2,3,4,5的概率,其中概率最大的,则是Alice对物品5评分的最大可能性。 

       P(物品5=1|Alice)=  P(Alice | 物品5=1) x P(物品5=1)  = P(物品1=1 | 物品5=1) * P(物品2=3 | 物品5=1)* P(物品3=3 | 物品5=1)*P(物品4=2 | 物品5=1) * P(物品5=1)

                = 1*1/2*1/2*1/2*1/2

       P(物品5=2|Alice)=  P(Alice | 物品5=2) x P(物品5=2)  = P(物品1=1 | 物品5=2) * P(物品2=3 | 物品5=2)* P(物品3=3 | 物品5=2)*P(物品4=2 | 物品5=2) * P(物品5=2)

               = 0*0*0*0*0

          ......................................

其他的物品以此类推,可以算出P(物品5=1|Alice)最大,则推测Alice用户对物品5的评分为1。

此例子是摘自《推荐系统》书中的一个例子

上面列子同理可用于文本分类模型中。用户看做文章,物品5评分看做文章的分类。同理可求出文章的所属的分类

 

4.数据连续型贝叶斯使用例子

      判断车厘子和樱桃

车厘子与樱桃的鲜红值/直径、质量信息例子

水果类型鲜红值直径质量
车厘子0.811.028.85
车厘子0.820.988.67
车厘子0.780.998.75
车厘子0.791.018.80
樱桃0.560.857.32
樱桃0.580.867.33
樱桃0.590.837.29
樱桃0.570.847.31

根据上表的数据,预测下表未知实体是樱桃还是车厘子

水果类型鲜红值直径质量
未知0.800.868

 

假设训练样本的特征满足高斯分布,则使用上面的公式1,公式2计算出均值和方差

根据计算公式,需要求出两种类型的水果的各个属性的均值和方差,计算结果如下:

各个属性的均值和方差

类型鲜红值-均值鲜红值-方差直径-均值直径-方差质量-均值质量-方差
车厘子0.80.01825741910.0182574198.76750.076757193
樱桃0.5750.0129099440.8450.0129099447.31250.0170778251

预测未知实体是车厘子还是樱桃,需要计算未知实体的属于车厘子和属于樱桃的后验概率谁大。

p(车厘子|unkown)=P(车厘子)*p(鲜红值|车厘子)*p(直径|车厘子)*p(质量|车厘子) / evidence

p(樱桃|unkown)=P(樱桃)*p(鲜红值|樱桃)*p(直径|樱桃)*p(质量|樱桃) / evidence

 

默认 P(车厘子)P(樱桃)为1/2。evidence为常数,通常用来对各类的后验概率之和进行归一化。

evidence=P(车厘子)*p(鲜红值|车厘子)*p(直径|车厘子)*p(质量|车厘子)+P(樱桃)*p(鲜红值|樱桃)*p(直径|樱桃)*p(质量|樱桃);

概率密度求解

  p(鲜红值|樱桃)可通过 公式3 来计算,均值和方差,分别带入 樱桃鲜红值得均值和方差,求出高斯分布概率密度,其他属性,以此类推。

最后根据计算结果来看,未知实体属于樱桃还是车厘子的概率大。

 

spark demo

https://github.com/apache/spark/tree/master/examples/src/main/java/org/apache/spark/examples

朴素贝叶斯Spark MLib实现

https://github.com/apache/spark/blob/master/examples/src/main/java/org/apache/spark/examples/ml/JavaNaiveBayesExample.java

转载于:https://my.oschina.net/manmao/blog/1363973

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值