Brute-Force MAP 学习算法:
此算法需要较大的计算量,因为它对 H中每个假设都应用了贝叶斯公式以计算 P(h|D)。 虽然对于大的假设空间这很不切实际,但该算法仍然值得关注,因为它提供了一个标准,以判断其他概念学习算法的性能。
1. 对于 H中每个假设 h,计算后验概率:
2 . 输出有最高后验概率的假设:
下面提到了一个理想情况下的例子,来说明Brute-Force MAP 学习算法
下面为理想的前提:
1.训练数据D是无噪声的(即di=c(xi));
2.目标概念 c 包含在假设空间 H中;
3.没有任何理由认为某假设比其他的假设的可能性大。
由于任一假设不比其他假设可能性大,很显然可对 H 中每个假设 h 赋以相同的先验概率。并且所有假设的概率和为1 : 对 H中任一 h ,
由于假定训练数据无噪声,那么给定h时,如果 di=h(xi)则分类di为 1,如果di≠h(xi)则di 为 0。
而因为所有假设是互斥的,所以使用全概率公式可得P(D):
这样我们就可以求出P(H|D):
这样说明在我们选定的 P(h)和 P(D|h)取值下,每个一致的假设后验概率为 ,每个不一致假设后验概率为 0。因此,每个一致的假设都是MAP假设。
一致学习器:
某学习算法被称为一致学习器,说明它输出的
假设在训练例上有零错误率。由上面的分析可得,如果假定H上有均匀的先验概率(即
P(hi)=P(hj
),对所有的i,j),且训练数据是确定性的和无噪声的(即当D和h一致时, P(D|h)=1),
否则为 0)时,任意一致学习器将输出一个MAP假设。
极大似然假设和误差平方最小化(学习连续目标函数的问题):
结论:在特定前提下,
任一学习算法如果使输出的假设预测和训练数据之间的误差平方最小化,它将输出一极大似然假设。
该结论对于许多神经网络和曲线拟合的方法,如果它们试图在训练
数据上使误差平方和最小化,此结论提供了一种贝叶斯的论证方法。
结论推导:
问题变量描述:学习器L工作在实例空间X和假设空间H上,H中的假设为X上定义
的某种实数值函数(即, H中每个h为一函数: h: X→ℜ,其中ℜ代表实数集)。 给定m个训练样例的集合,每个样例的
目标值被某随机噪声干扰,此随机噪声服从正态分布。更精确地讲,每个训练样例是序偶〈xi,
di〉,其中di=f(xi)+ei。这里f(xi)是目标函数的无噪声值, ei是一代表噪声的随机变量。
假设条件:假定
ei
的值是独立抽取的,并且它们的分布服从零均值的正态分布;所有假设
有相等的先验概率.
注意:
极大似然假设不一定等于正确假设,因为它是从有限的带噪声数据中推论得出的。
前提概念:
1. 由于变量是连续函数,所以我们不能赋予一个有限概率。此处我们使用概率密度。概率密度p(x0)是当ε趋近于 0 时, x取值在[x0, x0
+ε )区间内的概率与
1/ε乘积的极限。
概率密度函数:
2. 这里断定随机噪声变量 e 由正态分布生成。正态分布是一平滑的钟形分布,它可由其均值μ和标准差σ完全刻画。下面给出了基本公式,如果不清楚正态分布的可以先看看这个。点击打开链接
推导过程:
1.
2. 假定训练样例相互独立
3. 如果误差ei服从零均值和未知方差σ*2的正态分布,每个di也必须服从正态分布,其方差
为σ*2,而且以真实的目标值f(xi)为中心(而不是 0)。
由于概率di的表达式是在h为目标函数f的正确描述条件下的,所以还要替换μ
=f(xi)=h(xi )。
4.
5. 此表达式中第一项为一独立于 h 的常数,可被忽略。
6. 使一个负的量最大等效于使相应的正的量最小。
7. 可以再一次忽略掉与 h 无关的常数。
最后结果说明了极大似然假设
为,使训练值di和假设预测值h(xi)之间的误差的平
方和最小的那一个。
为什么用正态分布来描述噪声是合理的?一个必须承认的原因是为了数学计算的简洁
性。另一原因是,这一平滑的钟形分布对许多物理系统的噪声都是良好的近似。
中心极限定律:足够多的独立同分布随机变量的和服从一正态分布,而不论 独立变量本身的分布是什么。
中心极限定律说明由许多独立同分布的因素的和所生成的噪声将成为正态
分布。
下一次我们将深入探究极大似然假设。