主讲人 planktonli
planktonli(1027753147) 19:52:28
现在我们就开始讲第四章,第四章的内容是关于 线性分类模型,主要内容有四点:
1) Fisher准则的分类,以及它和最小二乘分类的关系 (Fisher分类是最小二乘分类的特例)
2) 概率生成模型的分类模型
3) 概率判别模型的分类模型
4) 全贝叶斯概率的Laplace近似
需要注意的是,有三种形式的贝叶斯:
1) 全贝叶斯
2) 经验贝叶斯
3) MAP贝叶斯
我们大家熟知的是 MAP贝叶斯
MAP(poor man's Bayesian):不涉及marginalization,仅是一种按后验概率最大化的point estimate。这里的MAP(poor man's Bayesian)是属于 点概率估计的。而全贝叶斯可以看作对test样本的所有参数集合的加权平均,PRML说的Bayesian主要还是指Empirical Bayesian:
这里的为超参 。
Curve fitting为例子:
1) MLE,直接对likelihood function求最大值,得到参数w。该方法属于point estimate。
2) MAP (poor man's bayes),引入prior probability,对posterior probability求最大值,得到w。MAP此时相当于在MLE的目标函数(likelihood function)中加入一个L2 penalty。该方法仍属于point estimation。
3) fully Bayesian approach,需使用sum rule和product rule(因为"degree of belief"的machinery和概率相同,因此这两个rule对"degree of belief"成立),而要获得predictive distribution又需要marginalize (sum or integrate) over the whole of parameter space w:
其中,x是待预测的点,X是观察到的数据集,t是数据集中每个数据点相应的label。其实是用参数w的后验概率为权,对probability进行一次加权平均;因此这个过程需要对w进行积分,即marginalization。
由于 marginalization 通常是非常难求取的,所以一般在针对Graphical Model的时候就需做Laplace approximation、Variation inference、MCMC采样这些。
所以我们要建立的概念是:Graphical Model的东西是一个需要marginalization的。
下面我们看看本讲的内容:
首先将上节 LS(Least Square)方法直接用于求分类问题,就可以得到 Least squares for classification。
一般线性模型Generalized Linear Model: an activation function acting on a linear function of the feature variables:
Linear Model对于回归和分类的区别在于:激活函数的不同
这里sign就是一个非线性的函数,其实是一个间断函数,非连续的。
下图证明了点到平面的距离公式。超平面:在一个D维Euclidean space中的超平面是一它的一个D-1维流形,而且该空间是一个线性空间。Linearly separable:分布于D维空间中的全部数据点可以用超平面无错地分隔成类。Coding scheme:1-of-K binary coding scheme,即如果有K个类,某数据点属于第i个类,则表示为一个K维向量,该向量除了第i个分量是1,其余都是0。