贝叶斯分类器
本质上利用先验的样本分布概率来估计新样本的属性
- 根据对属性间依赖的涉及程度,贝叶斯分类器形成了一个“谱”:朴素贝叶斯分类器不考虑属性间依赖性,贝叶斯网能表示任意属性间的依赖性,二者分别位于“谱”的两端;介于两者之间的则是一系列半朴素贝叶斯分类器,它们基于各种假设和约束来对属性间的部分依赖性进行建模
朴素贝叶斯
Naive Bayes Classifiers
-
基本假设
- 所有特征之间是相互独立的
-
贝叶斯公式数学形式
P ( B ∣ A ) = P ( A ∣ B ) P ( B ) P ( A ) P(B \mid A)=\frac{P(A \mid B) P(B)}{P(A)} P(B∣A)=P(A)P(A∣B)P(B)
即后验概率可由似然概率和先验概率确定posterior = likelihood × prior evidence \text { posterior }=\frac{\text { likelihood } \times \text { prior }}{\text { evidence }} posterior = evidence likelihood × prior
-
算法流程
-
具体到某分类任务种,我们根据一系列特征进行贝叶斯分类
P ( w i ∣ x ) = P ( x ∣ w i ) P ( w i ) P ( x ) P\left(w_{i} \mid x\right)=\frac{P\left(x \mid w_{i}\right) P\left(w_{i}\right)}{P(x)} P(wi∣x)=P(x)P(x∣wi)P(wi)
P ( x ) = P ( x 1 x 2 x 3 … x n ) P(x)=P\left(x_{1} x_{2} x_{3} \ldots x_{n}\right) P(x)=P(x1x2x3…xn)
其中, w i w_i wi为类别,表示第 i i i类; x x x为样本特征,可分为若干子特征 x 1 x 2 x 3 … x n x_{1} x_{2} x_{3} \ldots x_{n} x1x2x3…xn -
我们假设所有特征相互独立,故可得:
P ( x 1 x 2 x 3 … x n ) = P ( x 1 ) P ( x 2 ) P ( x 3 ) ⋯ P ( x n ) P\left(x_{1} x_{2} x_{3} \ldots x_{n}\right)=P\left(x_{1}\right) P\left(x_{2}\right) P\left(x_{3}\right) \cdots P\left(x_{n}\right) P(x1x2x3…xn)=P(x1)P(x2)P(x3)⋯P(xn)
-
由全概率公式可得:
P ( x ) = ∑ i P ( x ∣ w i ) P ( w i ) = ∑ i P ( x 1 ∣ w i ) P ( x 2 ∣ w i ) ⋯ P ( x n ∣ w i ) P ( w i ) P(x)=\sum_{i} P\left(x \mid w_{i}\right) P\left(w_{i}\right)=\sum_{i} P\left(x_{1} \mid w_{i}\right) P\left(x_{2} \mid w_{i}\right) \cdots P\left(x_{n} \mid w_{i}\right) P\left(w_{i}\right) P(x)=i∑P(x∣wi)P(wi)=i∑P(x1∣wi)P(x2∣wi)⋯P(xn∣wi)P(wi)
-
对于样本中的离散数值型特征,我们直接使用频率作为概率估计:
P ( x ∣ w i ) = ∣ V w i , x ∣ ∣ V w i ∣ P\left(x \mid w_{i}\right)=\frac{\left|V_{w_{i}, x}\right|}{\left|V_{w_{i}}\right|} P(x∣wi)=∣Vwi∣∣Vwi,x∣
其中, ∣ V w i , x ∣ \left|V_{w_{i}, x}\right| ∣Vwi,x∣表示 w i w_i wi类样本中特征 x x x组成的集合的大小(即特征 x x x的数量); ∣ V w i ∣ \left|V_{w_{i}}\right| ∣Vwi∣表示 w i w_i wi类样本组成的集合的大小(即 w i w_i wi类样本的数量)-
Example
- 某离散特征 x x x具有三个离散值 0 , 1 , 2 {0, 1, 2} 0,1,2,对于某个需要分类的样本,我们查看该样本的离散特征值为多少,假设为 2 2 2,那么就在训练集样本中去统计各类别中该离散特征值为 2 2 2的频率,即 P ( x ∣ w i ) P\left(x \mid w_{i}\right) P(x∣wi)
-
-
对于样本中的连续数值型特征,我们一般假设其服从正态分布,利用训练样本进行参数估计,计算出连续型特征的均值与方差:
P ( x ∣ w i ) ∼ N ( μ ω i , x , σ ω i , x 2 ) P\left(x \mid w_{i}\right) \sim N\left(\mu_{\omega_{i}, x}, \sigma_{\omega_{i}, x}^{2}\right) P(x∣wi)∼N(μωi,x,σωi,x2)
其中, μ ω i , x , σ ω i , x 2 \mu_{\omega_{i}, x}, \sigma_{\omega_{i}, x}^{2} μωi,x,σωi,x2是需要估计的参数- 在估计出参数后,我们就可以利用正态分布对连续数值型特征计算概率:
P ( x j ∣ w i ) = 1 2 π σ ω i , j exp ( − ( x j − μ ω i , j ) 2 2 σ ω i , j 2 ) P\left(x_{j} \mid w_{i}\right)=\frac{1}{\sqrt{2 \pi} \sigma_{\omega_{i}, j}} \exp \left(-\frac{\left(x_{j}-\mu_{\omega_{i}, j}\right)^{2}}{2 \sigma_{\omega_{i}, j}^{2}}\right) P(xj∣wi)=2πσωi,j1exp(−2σωi,j2(xj−μωi,j)2)
-
(最小错误率贝叶斯决策)最后,根据测试样本计算出每个类别的后验概率 P ( w i ∣ x ) P\left(w_{i} \mid x\right) P(wi∣x),后验概率最大的即为贝叶斯判别的正确类别
- 如有需要,还可对计算出的后验概率作归一化。以二分类为例,概率归一化如下所示:
P ( w 1 ∣ x ) = P ( w 1 ∣ x ) P ( w 1 ∣ x ) + P ( w 2 ∣ x ) P ( w 2 ∣ x ) = P ( w 2 ∣ x ) P ( w 1 ∣ x ) + P ( w 2 ∣ x ) \begin{aligned} &P\left(w_{1} \mid x\right)=\frac{P\left(w_{1} \mid x\right)}{P\left(w_{1} \mid x\right)+P\left(w_{2} \mid x\right)} \\ &P\left(w_{2} \mid x\right)=\frac{P\left(w_{2} \mid x\right)}{P\left(w_{1} \mid x\right)+P\left(w_{2} \mid x\right)} \end{aligned} P(w1∣x)=P(w1∣x)+P(w2∣x)P(w1∣x)P(w2∣x)=P(w1∣x)+P(w2∣x)P(w2∣x)
-
(最小风险贝叶斯决策)引入风险因子 λ i j \lambda_{i j} λij表示将某一类别 w j w_j wj(误)判为类别 α i \alpha_i αi的风险
λ i j = λ ( α i ∣ ω j ) \lambda_{i j}=\lambda\left(\alpha_{i} \mid \omega_{j}\right) λij=λ(αi∣ωj)
- 风险损失函数为
R ( α i ∣ x ) = ∑ j = 1 c λ ( α i ∣ ω j ) P ( ω j ∣ x ) R\left(\alpha_{i} \mid \mathbf{x}\right)=\sum_{j=1}^{c} \lambda\left(\alpha_{i} \mid \omega_{j}\right) P\left(\omega_{j} \mid \mathbf{x}\right) R(αi∣x)=j=1∑cλ(αi∣ωj)P(ωj∣x)
由于我们需要最小化风险决策,所以选择风险 R ( α i ∣ x ) R\left(\alpha_{i} \mid \mathbf{x}\right) R(αi∣x)最小的类别 α i \alpha_i αi作为最后的判决结果- 对于一个二分类问题,风险函数可以表示为
R ( α 1 ∣ x ) = λ 11 P ( ω 1 ∣ x ) + λ 12 P ( ω 2 ∣ x ) R ( α 2 ∣ x ) = λ 21 P ( ω 1 ∣ x ) + λ 22 P ( ω 2 ∣ x ) \begin{aligned} &R\left(\alpha_{1} \mid \mathbf{x}\right)=\lambda_{11} P\left(\omega_{1} \mid \mathbf{x}\right)+\lambda_{12} P\left(\omega_{2} \mid \mathbf{x}\right) \\ &R\left(\alpha_{2} \mid \mathbf{x}\right)=\lambda_{21} P\left(\omega_{1} \mid \mathbf{x}\right)+\lambda_{22} P\left(\omega_{2} \mid \mathbf{x}\right) \end{aligned} R(α1∣x)=λ11P(ω1∣x)+λ12P(ω2∣x)R(α2∣x)=λ21P(ω1∣x)+λ22P(ω2∣x)
-
-
最小错误率贝叶斯决策 & 最小风险贝叶斯决策
-
最小错误率决策是指将样本分错的概率最小,也就是说分为正确类别的概率最大,所以我们直接计算类别的贝叶斯后验概率,比较大小即可
-
最小风险决策往往是为了某些实际情况而决定的。例如判断细胞正常与异常,由于从人的直观上来看,将正常细胞判断为异常细胞一般比将异常细胞判断为正常细胞的风险小,所以给后验概率加入了风险因子来表达这种实际情况中的风险关系
-
所以,最小错误率决策和最小风险决策的判别结果并不一定相同,因为从风险的角度考虑,将细胞判别为异常细胞有利于尽早发现异常然后处理,有点“宁可错杀一千,也不放过一个”的保守思想,为了规避风险
-
半朴素贝叶斯
Semi-naive Bayes Classifier
-
独依赖分类器
One-Dependent Estimator,ODE
-
SPODE
Super-Parent ODE
-
TAN
Tree Augmented Naive Bayes
- 条件互信息(Conditional Mutual Information):可考虑作为GCN构图方案
-
AODE
Averaged One-Dependent Estimator
-
贝叶斯网
Bayesian Network,Belief Network
EM
Expectation-Maximization