25 贝叶斯分类(一)

标签:机器学习与数据挖掘
## 1.简单贝叶斯定理
  令A和B为样例空间中的事件。$P(A|B)$(在B发生的条件下,A发生的概率)的条件概率定义如下:
$$
P(A | B)=\frac{P(A \cap B)}{P(B)}=\frac{A与B的交集结果}{B的结果}
$$
  同样,$P(B | A)=\frac{P(A \cap B)}{P(A)}$。现在,对交集重新表示,我们有$P(A \cap B)=P(B | A) \cdot P(A)$。对上式作为交换,得到:
$$
P(A | B)=\frac{P(B | A) \cdot P(A)}{P(B)}
$$
  这就是简单贝叶斯定理了。
## 2.文字解释贝叶斯
  首先,我们令$\theta$表示未知分布的参数,贝叶斯分析需要$\theta$的启发式先验知识分布,称为先验分布 $p(\theta)$ 。再获得观察数据之后,可以根据包含在观察数据中的有关$\theta$的信息更新有关$\theta$分布的先验知识。这一修改将产生后验分布$p(\theta | \mathbf{X})$($\mathbf{X}$表示数据的整个数组)。
  后验分布可以通过下面的式子过得:
$$
p(\theta | \mathrm{X})=\frac{p(\mathrm{X} | \theta) p(\theta)}{p(\mathrm{X})}
$$
  其中,$p(\mathbf{X}|\theta)$表示似然函数, $p(\theta)$ 为先验分布。$p(\mathbf{X})$是一个被称为数据边际分布的归一化因子。
  通常,我们要选择后验概率的模式,使得$\theta$最大化$p(\theta | \mathbf{X})$来完成估计。这个估计方法被称之为最大后验方法(MAP)。对于无信息先验来说,MAP估计和频率最大似然估计通常是相同的,因为数据决定了先验知识。似然函数$p(\mathbf{X}|\theta )$从满足特定分布$f(\mathbf{X}|\theta)$ 的独立和同分布的观察数据的假设中获取,因此$p(\mathrm{X} | \theta)=\prod_{i=1}^{n} f\left(X_{i} | \theta\right)$。

## 3.贝叶斯框架的问题及解决方法
  对贝叶斯框架的批评主要来自两个潜在的缺陷。
  首先,先验分布的启发式知识往往带有主观性。也就是说,两个不同的主题专家可能会提供不同的先验分布,这样可能会将主见思想渗透到结果中,得到不同的后验分布。对该问题的解决方案是①如果对先验存在争义,则选择无信息先验;②应用大量数据以便削弱先验的相对重要性。不这样做,则可以勾建两个不同后验分布的模型,利用模型的充分性和效率评价标准,从中选择更好的模型。得到不止一个模型是坏事吗?
  第二种批评是贝叶斯计算对多数有趣的问题来说都具有复杂性,用数据挖掘语言来说,就是该方法存在可量测性问题。贝叶斯分析会导致维度灾难,因为归一化因子需要集成参数向量的所有可能存在的值,直接加以应用将使计算无法实现。当然,马尔可夫链蒙特卡洛(MCMC)方法(例如吉布斯分布采样以及Metropolis算法)极大地扩展了问题和维度的范围,使得贝叶斯分析可以被广泛采用。
(若不熟悉马尔科夫链蒙特卡诺方法的可以参考:https://zhuanlan.zhihu.com/p/37121528)

## 4.最大后验(MAP)分类
  我们需要得到$\theta$的值,使得$p(\theta | \mathbf{X})$最大,表示为$\theta_{\mathrm{MAP}}=\arg \max _{\theta} p(\theta | \mathbf{X})$,因为该值为参数值,对所有$\theta$,$p(\theta|\mathbf{X})$最大。利用后验分布公式,由于$p(X)$没有$\theta$项,因此我们有:
$$
\theta_{\mathrm{MAP}}=\arg \max _{\theta} p(\theta | \mathrm{X})=\arg \max _{\theta} \frac{p(\mathrm{X} | \theta) p(\theta)}{p(\mathrm{X})}=\arg \max _{\theta} p(\mathrm{X} | \theta) p(\theta)
$$
  贝叶斯MAP分类是最优的。即,对素有可能存在的分类器,其具有最小误差率。下面我们将该公式应用到客户流失数据集的部分子集当中,以便发现流失数据集的MAP估计。
## 5.例子
![1560940620517](assets/1560940620517.png)
  同时,我们有:
$$
\theta_{\mathrm{MAP}}=C_{\mathrm{MAP}}=\arg \max _{c, \overline{c}} p(I \cap V | C) p(C)
$$
  其中表示国际套餐,$V$表示语音邮件套餐。且有定义如下:
- $I$ 表示“国际套餐=是”
- $\overline{I}$ 表示“国际套餐=否”
- $V$ 表示“语音邮件套餐=是”
- $\overline{V}$ 表示“语音邮件套餐=否”
- $C$ 表示“流失情况=是”
- $\overline{C}$ 表示“流失情况=否”
![1560940899087](assets/1560940899087.png)
![1560940951119](assets/1560940951119.png)
  首先,上面的数据是可以通过计算验证来得到的。
  然后,我们应该对未流失情况的MAP估计进行计算。首先发现形式为$P(I,V|C)$的联合条件概率。
![1560941248681](assets/1560941248681.png)
  现在可以针对国际套餐与语音邮件套餐的4中国年组合获取流失情况的MAP估计,利用上面的方程:
$$
\theta_{\mathrm{MAP}}=C_{\mathrm{MAP}}=\arg \max _{c, \overline{c}} p(I \cap V | C) p(C)
$$
  如果我们预测一个有国际电话套餐和语音邮件套餐的一个客户,预测他是否会流失。我们的评估结果由MAP估计给出:
  ①若是流失客户,其概率:
$$
P\left( International\,\,Plan=yes, Voice\,\,Mail\,\,Plan=yes|Churn=true \right) \cdot P\left( Churn=ture \right) 
\\
=P\left( I\cap V\,\,| C \right) \cdot P\left( C \right) 
\\
=\left( 0.0735 \right) \cdot \left( 0.1449 \right) 
\\
=0.0108
$$
  对于非流失客户,其概率:
$$
P\left( International\,\,Plan=yes,Voice\,\,Mail\,\,Plan=yes|Churn=false \right) \cdot P\left( Churn=false \right) 
\\
=P\left( I\cap V\,\,|\overline{C} \right) \cdot P\left( \overline{C} \right) 
\\
=\left( 0.0196 \right) \cdot \left( 0.8551 \right) 
\\
=0.0168
$$
  我们对比,0.0168要大一些,因此,$\theta_{\mathrm{MAP}}=C_{\mathrm{MAP}}$,因此,对流失的MAP估计为“Churn=false”,我们预测他不会流失。
  同理,一个有国际套餐,但是没有语音邮件套餐的客户:
$$
P(I \cap \overline{V} | C) \cdot p(C)=(0.2091) \cdot(0.1449)=0.0303
\\
P(I \cap \overline{V} | \overline{C}) \cdot p(\overline{C})=(0.0456) \cdot(0.8551)=0.0390
$$
  因此,$\theta_{\mathrm{MAP}}=C_{\mathrm{MAP}}, \quad Churn=false$。
  当然,需要说明的是,这里的例子是最简单的一种,只有两个二元变量。之后,我们会接触更加复杂的变量。
## 6.后验概率比
$$
\frac{p\left(\theta_{\mathrm{c}} | \mathrm{X}\right)}{p\left(\overline{\theta}_{\mathrm{c}} | \mathrm{X}\right)}=\frac{p\left(\mathrm{X} | \theta_{\mathrm{c}}\right) \cdot p\left(\theta_{\mathrm{c}}\right)}{p\left(\mathrm{X} | \overline{\theta}_{\mathrm{c}}\right) \cdot P\left(\overline{\theta}_{\mathrm{c}}\right)}
$$
  (其中,$\theta_0$表示未知目标变量的特定分类。)
  意义:如果后验概率比等于1的话,表明后验分布提供的证据同时支持两种分类。也就是说,来自数据和先验分布的信息组合并不偏好某一种分类。如果其值大于1的话,表示后验分布趋向正例类。若值小于1的话。则这结果表明有否定正例类(如Churn=1的时候)的证据。
  比如,我们在例子中,同时拥有两个套餐的新客户的后验概率比为:
$$
\frac{P(I \cap V | C) \cdot P(C)}{P(I \cap V | \overline{C}) \cdot P(\overline{C})}=\frac{0.0108}{0.0168}=0.6467
$$
  同理,只有国际套餐的客户,其后验概率比为:
$$
\frac{P(I \cap \overline{V} | C) \cdot P(C)}{P(I \cap \overline{V} | \overline{C}) \cdot P(\overline{C})}=\frac{0.0303}{0.0390}=0.7769
$$
  只有语音套餐的客户,其后验概率比:
$$
\frac{P(\overline{I} \cap V | C) \cdot P(C)}{P(\overline{I} \cap V | \overline{C}) \cdot P(\overline{C})}=\frac{0.0132}{0.2356}=0.0560
$$
上式表明,后验分布中该客户“流失情况=真”与“流失情况=假”的证据比例为5.6%。

  什么套餐都没有的客户,其后验概率比:
$$
\frac{P(\overline{I} \cap \overline{V} | C) \cdot P(C)}{P(\overline{I} \cap \overline{V} | \overline{C}) \cdot P(\overline{C})}=\frac{0.0906}{0.5634}=0.1608
$$
上式表明,后验分布中该客户“流失情况=真”与“流失情况=假”的证据比例为16.08%。
  后验概率允许我们评估MAP分类的证据强度,有助于分析人员做出决策,而不是仅仅得出真或假的结论。


 

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值