原文:http://cs229.stanford.edu/notes/cs229-notes1.pdf
当面临回归问题时,为什么线性回归,特别是为什么最小二乘损失函数可能是一个合理的选择?在本节中,我们将给出一组概率假设,在此假设下,最小二乘回归是一种非常自然的算法。
让我们假设目标变量和输入是通过下面的方程关联的
上面的是误差项,用于考虑建模时忽略的变量所产生的影响( 比如可能某些特征对于房价的影响很明显,但我们做回归的时候忽略掉了)或者随机的噪声(random noise)。让我们进一步假设
是独立同分布的 (IID ,independently and identically distributed) ,服从高斯分布(Gaussian distribution ,也叫正态分布 Normal distribution),其平均值为 0,方差(variance)为
。据此,
的概率密度函数可以写成:
可以推出:
这里的记号表示的是这是一个给定
的
的分布,并且由
参数化。此处
的分布还可以写成
~
给定设计矩阵(包含了所有的
)和
, 那么
的分布是什么?数据的概率以
的形式给出。当
取固定值的时候,这经常被看作是一个关于
(或者是
)的函数。当我们想要显式地把它看做一个关于
的函数时,我们称之为 似然(likelihood) 函数:
注意,通过上的独立假设,这也可以写成
现在,考虑到这个关于的概率模型,选择参数θ的最佳猜测的合理方法是什么?最大似然原理认为,应选择θ,使数据尽可能高概率。也就是说,我们应该选择θ来最大化L(θ)。我们不仅可以使L(θ)最大化,还可以使L(θ)的任意严格增长函数最大化。特别是,如果我们用最大化对数似然函数ℓ(θ)代替,那么派生就会简单一些:
因此,最大化ℓ(θ)给出了与最小化下面公式相同的答案。
它就是J(θ),我们最初的最小二乘代价函数。
总结:在以往对数据的概率假设下,最小二乘回归对应于寻找θ的最大似然估计。因此,这是一套假设。 其中最小二乘回归可以被证明是一种非常自然的方法,它只是在做最大似然估计。(但要注意的是,概率假设并不是必要的。 最小二乘是一个完美的、合理的过程,而且可能--而且确实有--其他的自然假设也可以用来证明它的合理性。)
还请注意,在前面的讨论中,我们对θ的最终选择并不取决于什么是σ2,事实上,即使σ2未知,我们也会得到相同的结果。我们会利用这个事实之后,当我们讨论指数族和广义线性模型时。