1 线性回归
假设有数据有:
T
=
{
(
x
(
1
)
,
y
(
1
)
)
,
(
x
(
2
)
,
y
(
2
)
)
,
.
.
.
,
(
x
(
m
)
,
y
(
m
)
)
}
T=\{(x^{(1)},y^{(1)}),(x^{(2)},y^{(2)}),...,(x^{(m)},y^{(m)})\}
T={(x(1),y(1)),(x(2),y(2)),...,(x(m),y(m))}
其中
x
(
i
)
=
{
x
1
(
i
)
,
x
2
(
i
)
,
.
.
.
,
x
n
(
i
)
}
,
y
i
∈
R
x^{(i)}=\{x^{(i)}_1,x^{(i)}_2,...,x^{(i)}_n\},y^i \in R
x(i)={x1(i),x2(i),...,xn(i)},yi∈R。线性回归采用一个高维的线性函数来尽可能的拟合所有数据点,最简单的想法就是最小化函数值与真实值误差的平法,即:
J
(
θ
)
=
1
2
∑
i
=
1
m
(
h
θ
(
x
(
i
)
)
−
y
(
i
)
)
2
J(\theta)=\frac{1}{2}\sum^m_{i=1}(h_{\theta}(x^{(i)})-y^{(i)})^2
J(θ)=21i=1∑m(hθ(x(i))−y(i))2
其中线性函数如下:
h
θ
(
x
(
i
)
)
=
∑
j
=
1
n
θ
j
x
j
(
i
)
=
θ
T
x
(
i
)
h_{\theta}(x^{(i)})=\sum_{j=1}^n\theta_jx_j^{(i)}=\theta^Tx^{(i)}
hθ(x(i))=j=1∑nθjxj(i)=θTx(i)
构建好线性回归模型的目标函数后,接下来就是求解目标函数的最优解,常用的梯度优化方法都可以使用。另外,线性回归也可以从最小二乘法的角度来看,下面先将样本表示向量化,
X
∈
R
n
∗
m
,
Y
∈
R
m
X \in R^{n*m},Y \in R^m
X∈Rn∗m,Y∈Rm那么目标函数向量化形式如下:
J
(
θ
)
=
1
2
(
θ
T
X
−
Y
T
)
(
θ
T
X
−
Y
T
)
T
J(\theta)=\frac{1}{2}(\theta^TX-Y^T)(\theta^TX-Y^T)^T
J(θ)=21(θTX−YT)(θTX−YT)T
可以看出目标函数是一个凸二次规划问题,其最优解在导数为0处取到:
∂
J
(
θ
)
∂
θ
=
θ
X
X
T
−
X
Y
=
>
θ
=
(
X
X
T
)
−
1
X
Y
\frac{\partial J(\theta)}{\partial \theta}=\theta XX^T-XY=>\theta =(XX^T)^{-1}XY
∂θ∂J(θ)=θXXT−XY=>θ=(XXT)−1XY
值得注意的上式中存在计算矩阵的逆,一般来讲当样本数大于数据维度时,矩阵可逆,可以采用最小二乘法求得目标函数的闭式解。当数据维度大于样本数时,矩阵线性相关,不可逆。此时最小化目标函数解不唯一,且非常多,出于这样一种情况,我们可以考虑奥卡姆剃刀准则来简化模型复杂度,使其不必要的特征对应的w为0。所以引入正则项使得模型中w非0个数最少。当然,岭回归,lasso回归的最根本的目的不是解决不可逆问题,而是防止过拟合。
2 岭回归和Lasso回归
岭回归的目标函数在一般的线性回归的基础上加入了正则项,在保证最佳拟合误差的同时,使得参数尽可能的“简单”,使得模型的泛化能力强(即不过分相信从训练数据中学到的知识)。正则项一般采用二范数,使得模型更具有泛化性。
Lasso回归采用一范数来约束,使参数非零个数最少。而Lasso和岭回归的区别很好理解,在优化过程中,最优解为函数等值线与约束空间的交集,正则项可以看作是约束空间。可以看出二范的约束空间是一个球形,而一范的约束空间是一个方形,这也就是二范会得到很多参数接近0的值,而一范则尽可能非零参数最少。
值得注意的是线性模型的表示能力有限,但是并不一定表示线性模型只能处理线性分布的数据。这里有两种常用的线性模型非线性化。对于上面的线性函数的构造,我们可以看出模型在以
x
0
,
x
1
,
.
.
.
,
x
n
x_0,x_1,...,x_n
x0,x1,...,xn的坐标上是线性的,但是并不表示线性的模型就一定只能用于线性分布问题上。假如我们只有一个特征
x
0
x_0
x0,而实际上回归值是
y
=
x
0
2
y=x_0^2
y=x02,我们同样可以采用线性模型,因为我们完全可以把输入空间映射到高维空间
(
x
1
3
,
x
1
2
,
x
1
1
)
(x_1^3,x_1^2,x_1^1)
(x13,x12,x11),其实这也是核方法以及PCA空间变换的一种思想,凡是对输入空间进行线性,非线性的变换,都是把输入空间映射到特征空间的思想,所以只需要把非线性问题转化为线性问题即可。另外一种是局部线性思想,即对每一个样本构建一个加权的线性模型。
3 局部加权线性回归
考虑到线性回归的表示能力有限,可能出现欠拟合现象。局部加权线性回归为每一个待预测的点构建一个加权的线性模型。其加权的方式是根据预测点与数据集中点的距离来为数据集中的点赋权重,当某点距离预测点较远时,其权重较小,反之较大。由于这种权重的机制引入使得局部加权线性回归产生了一种局部分段拟合的效果。由于该方法对于每一个预测点构建一个加权线性模型,都要重新计算与数据集中所有点的距离来确定权重值,进而确定针对该预测点的线性模型,计算成本高,同时为了实现无参估计来计算权重,需要存储整个数据集。