线性回归——最小二乘法的不同理解

1. 写在前面

最近在上机器学习中的数学这门课。虽然前面的矩阵部分与我大学四年学习的线性代数部分有较大重合部分,但是这门课让我更好认识到向量和矩阵的实际应用情况,解决了很多为什么的问题,而不是为了刷题。在这里,我更了解到了最小二乘法在线性回归中的由来,与此同时结合我之前了解到的高斯噪声和最大似然,我发现了很有意思的一点。

2. 几何视角

假设有(x_1,y_1), (x_2,y_2), (x_3,y_3)......(x_n,y_n), 如果我们要线性拟合这些点,那么我们用最小二乘法可以有argmin\sum_{i=1}^{n}(\beta_0+\beta_1x_1+...+\beta_nx_n-y_i)^2,我们需要找到一组参数使得该式达到最小。我们不妨把该式写成这样的形式:

(AX-y)^T(AX-y)

注意上式,A是输入矩阵而X是参数\beta_i组成的列向量,y是输出组成的列向量。因此我们需要找到X,使上式达到最小,求解如下:

(AX-y)^T(AX-y) \\=(X^TA^T-y^T)(AX-y) \\=X^TA^TAX-X^TA^Ty-y^TAX+y^Ty

由于y^Ty为常数,不影响求解最值可以略去。X^TA^Tyy^TAX均为标量,且互为转置,由于标量的转置与自身相等,因此我们把上式转为求下式的最值问题:

X^TA^TAX-2X^TA^Ty

对X向量求导可得

2A^TAX-2A^Ty=0

X=(A^TA)^{-1}A^Ty

至此,我们已经解决了最小二乘法的求解问题,但解决这个问题并非是这篇文章的目的。我们不妨再深想一步,为什么要这么做呢?即为什么要找到一组参数使差的平方之和达到最小呢?我们可以从几何角度去理解这个问题。

再回看问题描述,我们可以用矩阵来表示这个问题,即

Ax=y

其中A为输入矩阵,x是所需确定的参数,y为输出。从矩阵的角度来理解,我们可以说要找到一组参数使得A中列向量的线性组合等于y,但是我们知道该方程并不是总有解,那么我们就只能找到一个最近的解\widetilde{x},怎么找呢?

从几何角度来理解一下:Ax一定在A的column space的平面中,因此只要y向量不在这个平面上,该方程就无解,那我们只能找一个在column space平面的向量来逼近,这个向量一定要与y向量是最近的,这也是线性回归求解的思想。因此,很自然我们可以找到y在column space上的投影来表示,我们有:

(y-A\widetilde{x})^TA\widetilde{x}=0

由此可解得,

\widetilde{x}^TA^Ty=\widetilde{x}^TA^TA\widetilde{x}^T

\widetilde{x}=(A^TA)^{-1}A^Ty

这个解就是我们刚刚求解最小二乘法的解!这样一来我们就可以知道,原来最小二乘法是可以这样从线性空间的几何角度去理解。

3. 概率视角(频率学派)

下面我们可以再从概率角度去理解一下线性回归,这里说的是频率学派视角,也就是点估计。还是同样的输入输出(x_1,y_1), (x_2,y_2), (x_3,y_3)......(x_n,y_n),这里需要假设每一个样本都满足独立同分布,我们用线性回归有如下公式:

y_i=W^Tx_i

当然通过上面的解释我们知道在现实生活中是无法找到一组参数解使得上述等式成立。在概率视角下,我们可以假设是噪声产生了影响,而该噪声服从均值为0,方差为\sigma^2的高斯分布。

y_i=W^Tx_i+\epsilon

这里W是未确定的一组参数,并不是分布(如果是贝叶斯线性回归就视为一种分布,这里不这样考虑)。因此我们可以说y_i服从均值为W^Tx_i方差为\sigma^2的高斯分布,有P(y\mid x,W)=N(W^Tx,\sigma^2)

下面就可以用我们熟悉的最大似然MLE来求解,我们知道高斯分布的公式,代入均值和方差可得:

N(W^Tx_i,\sigma^2)=\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{1}{2\sigma^2}(y_i-W^Tx_i)^2)

因为各个样本点满足独立同分布,所以可以直接相乘再log,有:

log\prod_{i=1}^{n}\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{1}{2\sigma^2}(y_i-W^Tx_i)^2)\\=\sum_{i=1}^{n}log\frac{1}{\sqrt{2\pi}\sigma}-\frac{1}{2\sigma^2}(y_i-W^Tx_i)^2

我们只需找到参数W为了使该式达到最大,同样我们不需要考虑常数项,因此有:

argmax(\sum_{i=1}^{n}log\frac{1}{\sqrt{2\pi}\sigma}-\frac{1}{2\sigma^2}(y_i-W^Tx_i)^2)\\=argmax(\sum_{i=1}^{n}-(y_i-W^Tx_i)^2)\\=argmin(\sum_{i=1}^{n}(y_i-W^Tx_i)^2)

这样一来,从概率视角(频率学派),我们也推出了最小二乘法的公式。从以上推导过程我们也可以看出高斯分布的重要性,想知道更多关于高斯分布的知识,可以去看一看中心极限定理的证明。

还要提一下的是,这里我一直强调的是频率学派的概率视角,因为贝叶斯学派对线性回归的参数并不是进行点估计而是将其视为一种分布,最后得到的自然是一个分布,如果有兴趣可以去了解一下。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值