6、贝叶斯

15 篇文章 0 订阅
12 篇文章 0 订阅

1、贝叶斯公式

1)贝叶斯相关公式:

先验概率:P(A)P(B) 先验概率可以由大量的重复实验所获得的各类样本出现的频率来近似获得,其基础是“大数定律”。

后验概率:P(B|A)     P(A|B)

条件概率:P(A|B)=(P(AB)/P(B))=> P(AB)=P(B)*P(A|B)又P(AB)=P(BA)  =>P(AB)=P(A)*P(B|A)=P(B)*P(A|B)

贝叶斯公式:P(A|B)=(P(B|A)*P(A))/P(B)

根据贝叶斯定理,后验概率P(Y=cx | X=x) = 条件概率P(X=x | Y=cx) 先验概率P(Y = ck) / P(X=x),取P(X=x | Y=cx) * P(Y = ck)最大的分类作为输出。

2)朴素贝叶斯相关公式:事件A与事件B相互独立,则

P(B|A)=P(B)    P(A|B)=P(A)    所以 P(AB)=P(B)*P(A|B)=P(A)*P(B)

全概率公式:P(A)=P(A|B1)*P(B1)+…+P(A|Bn)*P(Bn)  

朴素贝叶斯公式:在给定实例的目标值情况下,观察到的集合a1…an的概率等于每个独立属性的概率乘积   P(a1,…,An|Vj)=πiP(Ai|Vj)

2、应用场景

文本挖掘典型场景:网页自动分类、垃圾邮件判断、评论自动分析、通过用户访问内容判别用户喜好、用户流失预警、用户标签系统、

常用的文本分类方法有支持向量机、K-近邻算法和朴素贝叶斯。其中朴素贝叶斯具有容易实现,运行速度快的特点,被广泛使用。

数字特征的处理:

贝叶斯通过计算词频数来进行学习,只能用于分类数据,对于连续数据这时可以把它进行分区(bin)处理,比如利用cut函数。不过需要注意的是这样可能导致信息的丢失。

3、朴素贝叶斯

1)原理

给定类标号A,朴素贝叶斯分类器在估计类条件概率时假设属性之间条件独立。条件独立假设可以形式化的表达如下: P(B|A)=P(b1|A)*P(b2|A)*…*P(bn|A)    其中每个训练样本可用一个属性向量B=(b1,b2,b3,…,bn)表示,各个属性之间条件独立。

   比如,对于一篇文章,“Goodgood study, Day day up.” 可以用一个文本特征向量来表示,x=(Good, good, study, Day, day , up)。一般各个词语之间肯定不是相互独立的,有一定的上下文联系。但在朴素贝叶斯文本分类时,我们假设各单词之间没有联系,可以用一个文本特征向量来表示这篇文章,这就是“朴素”的来历

 

朴素贝叶斯模型有两个假设:所有变量对分类均是有用的,即输出依赖于所有的属性;这些变量是相互独立的,即不相关的。之所以称为“朴素”,就是因为这些假设从未被证实过。

注意上面每项属性(或称指标)的取值都是离散的,称为“标称变量”。

 

2)特点:

①属于有监督的学习(有训练集);

②主要处理离散类型的数据,如果为连续数据可先进行离散化;

①  训练集如果有缺失需进行预处理(Laplace校准);

②  关于特征值相互独立的假设,在实际问题中一般无法满足,但基于此假设做的预测是可以接受的。

有了条件独立假设,就不必计算X和Y的每一种组合的类条件概率,只需对给定的Y,计算每个xi的条件概率。后一种方法更实用,因为它不需要很大的训练集就能获得较好的概率估计。

如果有一个属性的类条件概率为0,则整个类的后验概率就等于0,我们可以直接得到后验概率P(Yes | x1)= P(No | x1)=0,这时二者相等,无法分类。

在众多的分类模型中,应用最为广泛的两种分类模型是决策树模型和朴素贝叶斯模型(NBC)。朴素贝叶斯模型发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率。

 

3)朴素贝叶斯的优缺点

同时,NBC模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。理论上,NBC模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此,这是因为NBC模型假设属性之间相互独立,这个假设在实际应用中往往是不成立的,这给NBC模型的正确分类带来了一定影响。在属性个数比较多或者属性之间相关性较大时,NBC模型的分类效率比不上决策树模型。而在属性相关性较小时,NBC模型的性能最为良好。(所以在文本分类时能够用关键词就更好了)

①  优点:

简单,快速,有效;能很好处理噪声,缺失数据;对小和大样本都可以

比较容易获得预测的概率估计(type=”raw”,分类type=”class”)

②  缺点:

要求特征相互独立(通常不会存在,这也是为什么要叫naive的原因);对主要是大量数字特征的数据集不太适合;估计概率不如分类可靠(所以一般用它来分类)

 

4)、朴素贝叶斯的模型

朴素贝叶斯分类器是一种有监督学习,常见有两种模型,多项式模型(multinomial model)和伯努利模型(Bernoullimodel)。

设某文档d=(t1,t2,…,tk),tk是该文档中出现过的单词,允许重复

在多项式模型中: 类条件概率P(tk|c)=(类c下单词tk在各个文档中出现过的次数之和+1)/(类c下单词总数+|V|)

V是训练样本的单词表(即抽取单词,单词出现多次,只算一个),|V|则表示训练样本包含多少种单词。在这里,m=|V|, p=1/|V|。

伯努利模型:P(c)= 类c下文件总数/整个训练样本的文件总数     P(tk|c)=(类c下包含单词tk的文件数+1)/(类c下单词总数+2)

二者的计算粒度不一样,多项式模型以单词为粒度,伯努利模型以文件为粒度,因此二者的先验概率和类条件概率的计算方法都不同。

 在计算条件概率时,当待分类文本中的某个词没有出现在词库中时,概率为0,会导致很严重的问题,需要考虑拉普拉斯平滑(laplace smoothing):它是将所有词出现的次数+1,再进行统计。

 

5)拉普拉斯估计值

朴素贝叶斯用来进行文本分类通常存在一个问题,如果训练的数据中某个词没有出现过,那么该词的概率就变成了0,如公式所示,整个计算的垃圾邮件概率就变成了0,显然不合理,于是就有了拉普拉斯估计的应用,我们给它预估一个值就可以避免问题的出现了。

例如:如果某个词只出现在垃圾邮件中,Paul Graham就假定,它在正常邮件的出现频率是1%(经验值,可以根据新收的邮件不断调整),反之亦然。这样做是为了避免概率为0。随着邮件数量的增多,计算结果会自动调整。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值