引言
训练计算机使之根据数据进行推断是统计学和计算机科学的交叉领域,其中统计学家提供有数据做推断的数学框架,而计算机科学家研究推断方法如果在计算机上有效地实现。
数据来自于一个不完全清楚的过程,将该过程作为随机过程建模表明我们缺乏知识。也许该过程实际上是确定性的,但是因为我们没有获取关于它的完全知识的途径,所以我们把它作为一个随机过程建模,并且用概率理论来分析它。
有时候,我们得不到随机过程的先验,所以需要从给定的样本来估计它,这里就需要统计学的知识了。简言之,通过有限样本估计随机过程的近似。
1、贝叶斯公式在分类问题中的应用
这里笔者打算从贝叶斯公式出发,带大家了解贝叶斯在分类问题中的应用。
贝叶斯公式:
这里笔者直接从公式出发,讲解公式中每个量代表的具体含义。假设本统计模型在随机变量的分布方式为伯努利分布。
其中P(C)表示伯努利的先验概率,如P(C=0)表示统计数据中类型C取0的概率。它是我们看到观测量x之前就获得的关于C的知识。满足
其中,P(x|C)称为类似然,是属于C的时间具有相关联的预测值x的条件概率。例如:P(x1,x2|C=1)是C=1类具有X=x1,X=x2的概率。这就是通过数据我们得到的关于类的信息。
其中,P(x)称为证据,是看到观测x的边缘概率,无论正例还是负例。由于证据对最终分类结果不会产生影响,所以我们一般省略去。
使用贝叶斯规则,组合先验知识和数据告诉我们的知识,在看到观测x之后,计算概念的后验概率 P(C|x).
上面探讨了关于二分类情况下贝叶斯公式,此外,我们可以通过二分类问题推广到多分类问题。一般情况下,我们有K个互斥的和穷举的类Ci,当x属于Ci时,我们可以将后验概率P(x|Ci)看作x作为输入的概率。所以多分类一般式如下:
2、分类的另一面:判别式函数
分类也可以看作实现一组判别式函数使得:
根据1中描述,对于公共规范化项证据P(x)我们可以忽略,所以贝叶斯公式就变为:
根据这个公式,我们就把数据的特征空间分为K个决策区域,这些决策区域通过决策边界曲线分隔开。如图:
3、总结
所以,对于一般的分类问题,我们只需要求得,贝叶斯公式中先验和类似然,其中先验可以根据统计训练样本数据得到,而类似让可以使用后面讲解的最大似然法求得。具体求解过程详见,笔者系列文章。
引用:机器学习导论