最初的疑惑
在李航老师的统计机器学习当中,提到了机器学习的目标或者说求解的方向,这个目标分为两种形式:
- 机器学习是要去学习一个目标函数 f f f或者说一个假设 h h h,这个函数 f f f或者假设 h h h可以正确分类数据或者正确拟合数据
- 机器学习是要去学习一个概率分布 P ( h ∣ D ) P(h|D) P(h∣D),这个概率表达式的含义是在给定数据集 D D D上,假设 h h h是正确的概率是什么多少,我们只需要选取正确率最高的假设就可以,也就是求 m a x P ( h ∣ D ) maxP(h|D) maxP(h∣D),得到假设 h h h。
所以为什么机器学习模型的目标会有两种表达形式,这两种形式又有什么联系呢?
目标函数 f f f与符合概率 P ( h ∣ D ) P(h|D) P(h∣D)最大的假设 h h h的现实世界的含义是什么?
对于回归问题来说,两种表述现实世界的含义都可以通过下面的图片表示,这个目标函数 f f f和假设 h h h都表示为一个拟合曲线。在这里假设 h h h可以理解为在某个模型中,所有参数 θ \theta θ的取值,所以把 h h h放入的模型当中,就能生成一个函数,一条曲线。
现在,我们先给前面提到的两个目标换一下名字,来表达更一般的问题
- 目标是拟合一个函数,那么我们就称它为函数拟合的方式,求解拟合问题,一般是通过损失函数的方式
- 目标如果是学习一个概率分布,找到最可能的假设,我们把它叫做贝叶斯的方式,求解贝叶斯,一般是通过“最大似然”的方式。
这样,我们的问题就变成了一个更加一般的问题,贝叶斯和函数拟合是什么关系?
贝叶斯和函数拟合是如何关联的?
首先给出结论:
贝叶斯的优化目标–最大似然 和函数拟合的优化目标–最小损失 在回归和分类问题上表达式完全一致的,并且优化风向也是一致的。
这里的联系虽然加了限制条件:回归和分类问题,但是这个限制其实是十分宽松的,因为回归和分类问题已经涵盖所有监督式机器学习,所以这个结论其实是一个一般性的结论。
同时,这里还要注意一点, P ( h ∣ D ) P(h|D) P(h∣D)为后验分布,但是如果我们假设先验分布 P ( h ) P(h) P(h),也就是每个假设 h h h出现的概率是相同的,我们可以得到 P ( h ∣ D ) ∝ P ( D ∣ h ) P(h|D) \propto P(D|h) P(h∣D)∝P(D∣h),这个 P ( D ∣ h ) P(D|h) P(D∣h)就是似然(likelihood)。所以找最大的 P ( h ∣ D ) P(h|D) P(h∣D)的问题就变成了
最大似然和损失函数在回归问题上是如何关联的?
首先我们先回顾一下回归问题的基本形式:
我们希望找到一个 W W W ,且有函数 f f f
f ( x ⃗ ) = ∑ i = 1 n w i ∗ ϕ ( x i ) + w 0 f(\vec{x})=\sum_{i=1}^{n} w_i * \phi(x_i) + w_0 f(x)=i=1∑nwi∗ϕ(xi)+w0
使预测的 f ( x ⃗ ) f(\vec{x}) f(x)能够最够靠近真实值 y y y。
如果用函数拟合的方式,我们会把损失函数定义为 M S E MSE MSE,我们需要做的就是求解
a r g w ⃗ m i n ∑ i = 0 n ( y i − f ( x i ⃗ ) ) 2 arg_{\vec{w}} min \sum_{i=0}^n (y_i-f(\vec{x_i}))^2 argwmini=0∑n(yi−f(xi))2
下面我们要用最大似然表示这个问题,并说明最大似然的形式和损失函数的形式是完全一致的。
我们首先假设真实的 y y y和 f ( x ⃗ ) f(\vec{x}) f(x)的关系为
y i = f ( x i ⃗ ) + ε y_i = f(\vec{x_i}) + \varepsilon yi=f(xi)+ε
ε \varepsilon ε是预测和真实之间的误差,或者噪音。这个公式表示每个训练样例的值是收到一个噪音干扰的,我们假设这个噪音是从均值为0,方差为 σ \sigma σ的高斯分布中采样出来的,且当前 f ( x i ⃗ ) f(\vec{x_i}) f(xi)的假设为 h h h。所以我们可以得到
P ( y i − f