关于贝叶斯分类器的一些理解
参考西瓜书及一些论坛资料
首先明白咱们用贝叶斯***分类***器想干什么:
例如:有一个细胞切片,通过收集样本,得到一些良性细胞的特征和恶心细胞的特征。这时如果出现了一个新的细胞,我们希望可以通过从这个新细胞上面得到一些特征来判断这个细胞是什么性质的细胞。
故,贝叶斯主要用于离散分类任务。
贝叶斯定理:P(c|x)=【P(c)P(x|c)】/P(x)
P(c)是先验概率,可以通过样本集求出。P(x)是证据。所以问题的关键变成了***求P(x|c)***上
总体决策思想:1、基于最小错误率的贝叶斯决策 。2、 基于最小风险的贝叶斯决策
参考:https://blog.csdn.net/songzitea/article/details/23131609
因为对于类条件概率P(x|c)来说,由于它涉及关于x所有属性的联合概率,直接根据样本出现的频率来估计将会遇到严重的困难。比如,有五个西瓜作为样本{12345}。其中有一个特征是色泽,观察五个样本的色泽发现,样本123的色泽是青绿色且都是好瓜。但是能根据这就说P(色泽=青绿|好瓜=是)=1么?显然是不对的。因为“未被观测到”和“出现概率为零”显然是不同的。
具体计算P(x|c)的方法:
1.极大似然估计
当P(x|c)仅被参数向量θc唯一确定。比如,正常情况下,某个瓜是否是好瓜可能由多个特征决定,比如色泽,根蒂etc。但是我们假设,某类瓜的某个特征仅有色泽决定。故P(x|c)也可以写成P(x|θc)。这时可用极大似然估计来估计θc,故而求出P(x|c),比方说我想求P(敲声=闷响,根蒂=卷曲|好瓜=是)=?。我们就可以等价于求P(敲声=闷响,根蒂=卷曲|色泽=青绿)的概率。
公式参考西瓜书149页。
书中对连续回归问题也有介绍。
2.朴素贝叶斯分类器
和极大似然估计不同,因为现实生活中P(x|c)很少仅由一个参数向量决定,例如,色泽=青绿的瓜就能决定这个瓜的根蒂?显然不对。所以引入朴素贝叶斯分类器。
朴素贝叶斯分类器虽然更贴近实际,但是它假设了
1.每种特征相互独立即互不影响
2.特征对结果的影响是相同的。
比如,下雨不影响刮风,下雨对出去玩的影响和刮风对出去玩的影响是相同的。
西瓜书上的例子很详细。
注意拉普拉斯修正。
这里应该注意在书上153页的例子上的公式7.19中,N是种类c有几种,例如书中84页表中,瓜可分好瓜和坏瓜,这里的N=2。公式7.20中,Ni是指特征X有几种,同样的例子中,色泽有三种,则取值为3。
3.半朴素贝叶斯分类器。
朴素贝叶斯分类器中的独立这个假设在现实生活中很难实现。故引入半朴素贝叶斯分类器。
当每种特征仅依赖除自己之外的最多一种特征,则有ODE(独依赖估计),分为SPODE和AODE,AODE就是SPODE加个外循环,和TAN算法。
TAN算法是以最大生成树为基础的算法。树上有例题。最大生成树我感觉kruskal最好理解。
4.贝叶斯网
当属性之间不满足仅依赖一个的时候,即有了贝叶斯网。
贝叶斯网分为三小节:(1)如何判断属性之间的依赖关系。(2)如何编织贝叶斯网。(score function)(3)通过贝叶斯网来直接求取P(Q|E)也就是说不用求P(x|c)。(这里的两种算法:吉布斯和EM还不是很懂。)