线性拟合
平面线性拟合
线性回归是最简单的数据拟合方法,平面空间的线性回归利于直观理解:
平面上有很多样本点
(
x
,
y
)
(x,y)
(x,y),目标是找到一条直线
y
=
a
x
+
b
y=ax+b
y=ax+b拟合这些样本,在实际问题中,样本点的特征不局限于1维,而是任意的
p
p
p维;
维度扩展
为了便于问题描述,引入符号:
假设有一组样本
D
=
{
(
x
1
,
y
1
)
,
(
x
2
,
y
2
)
,
.
.
.
,
(
x
n
,
y
n
)
}
D=\left\{(x_{1},y_{1}),(x_{2},y_{2}),...,(x_{n},y_{n})\right\}
D={(x1,y1),(x2,y2),...,(xn,yn)},其中,
x
i
x_{i}
xi是一个
p
p
p维向量,它可以表达第
i
i
i个样本被观察的
p
p
p个特征,
y
i
y_{i}
yi表示第
i
i
i个样本的取值,是一个数值,所以拟合的直线表示样本
p
p
p个特征到最终取值的线性映射关系;
因此,
N
N
N个样本的集合写作:
X
=
[
x
1
,
x
2
,
.
.
.
,
x
N
]
T
X=[x_{1},x_{2},...,x_{N}]^{T}
X=[x1,x2,...,xN]T;每个样本写作向量
x
i
=
[
x
i
1
,
x
i
2
,
.
.
.
,
x
i
p
]
x_{i}=[x_{i1},x_{i2},...,x_{ip}]
xi=[xi1,xi2,...,xip],最终目标是估计系数
w
=
[
w
1
,
w
2
,
.
.
.
,
w
p
]
w=[w_{1},w_{2},...,w_{p}]
w=[w1,w2,...,wp]和一个偏置
b
b
b,从而建立映射:
w
T
x
+
b
⇒
y
w^{T}x+b\Rightarrow y
wTx+b⇒y
为了书写简便,可以将偏置
b
b
b作为系数
w
0
w_{0}
w0,得到:
即
w
T
x
+
b
⇒
y
w^{T}x+b\Rightarrow y
wTx+b⇒y变成
w
T
x
⇒
y
w^{T}x\Rightarrow y
wTx⇒y;
最小二乘参数估计
在最小二乘法估计中,定义目标函数如下:
L
(
w
)
=
∑
i
=
1
N
∣
w
T
x
i
−
y
i
∣
2
L(w)=\sum_{i=1}^{N}|w^{T}x_{i}-y_{i}|^{2}
L(w)=i=1∑N∣wTxi−yi∣2
针对
N
N
N个样本,找到一个系数向量
w
w
w,使得拟合结果和真实值间误差的平方和最小;
高斯噪声与最小二乘
探究高斯噪声与最小二乘的关系
通过线性拟合,能否让直线精确通过每一个样本,使得拟合的误差为0;显然这是不可能的,因为样本本身携带噪声,带有随机性,所以可以得到另一种理解:拟合的直线代表样本分布的确定性,拟合值和真实值的误差(也可称为噪声),代表了随机性;
对于随机性的噪声
ϵ
\epsilon
ϵ,也许可以用高斯分布来描述:
ϵ
∼
N
(
0
,
σ
2
)
\epsilon\sim N(0,\sigma^{2})
ϵ∼N(0,σ2)
因此,可以得到:
y
=
w
T
x
+
ϵ
y=w^{T}x+\epsilon
y=wTx+ϵ
显然,在
w
w
w与
x
x
x确定的情况下,
y
y
y也将服从正态分布:
y
∼
N
(
w
T
x
,
σ
2
)
y\sim N(w^{T}x,\sigma^{2})
y∼N(wTx,σ2)
其概率密度也是一个条件概率:
p
(
y
∣
x
,
w
)
=
1
2
π
σ
2
e
x
p
(
−
(
y
−
w
T
x
)
2
2
σ
2
)
p(y|x,w)=\frac{1}{\sqrt{2\pi\sigma^{2}}}exp(-\frac{(y-w^{T}x)^{2}}{2\sigma^{2}})
p(y∣x,w)=2πσ21exp(−2σ2(y−wTx)2)
此时,可以使用极大似然估计去获得参数
w
w
w,对数似然函数为:
L
(
w
)
=
l
o
g
∏
i
=
1
N
p
(
y
i
∣
x
i
,
w
)
=
∑
i
=
1
N
l
o
g
(
p
(
y
i
∣
x
i
,
w
)
)
=
∑
i
=
1
N
(
l
o
g
1
2
π
σ
2
−
(
y
i
−
w
T
x
i
)
2
2
σ
2
)
L(w)=log\prod_{i=1}^{N}p(y_{i}|x_{i},w)=\sum_{i=1}^{N}log(p(y_{i}|x_{i},w))=\sum_{i=1}^{N}(log\frac{1}{\sqrt{2\pi\sigma^{2}}}-\frac{(y_{i}-w^{T}x_{i})^{2}}{2\sigma^{2}})
L(w)=logi=1∏Np(yi∣xi,w)=i=1∑Nlog(p(yi∣xi,w))=i=1∑N(log2πσ21−2σ2(yi−wTxi)2)
去除与
w
w
w无关的项,目标化简为:
w
m
l
e
=
a
r
g
m
a
x
w
∑
i
=
1
N
−
(
y
i
−
w
T
x
i
)
2
=
a
r
g
m
i
n
w
∑
i
=
1
N
(
y
i
−
w
T
x
i
)
2
w_{mle}=argmax_{w}\sum_{i=1}^{N}-(y_{i}-w^{T}x_{i})^{2}=argmin_{w}\sum_{i=1}^{N}(y_{i}-w^{T}x_{i})^{2}
wmle=argmaxwi=1∑N−(yi−wTxi)2=argminwi=1∑N(yi−wTxi)2
可以看出,正好就是最小二乘法参数估计的目标函数
L
(
w
)
=
∑
i
=
1
N
∣
w
T
x
i
−
y
i
∣
2
L(w)=\sum_{i=1}^{N}|w^{T}x_{i}-y_{i}|^{2}
L(w)=∑i=1N∣wTxi−yi∣2,所以,最小二乘法本身就隐含了噪声服从0均值正态分布的假设;
参数估计
现在需要求解
w
m
l
e
w_{mle}
wmle,首先展开目标函数:
对向量
[
w
T
x
1
−
y
1
,
w
T
x
2
−
y
2
,
.
.
.
,
w
T
x
N
−
y
N
]
[w^{T}x_{1}-y_{1},w^{T}x_{2}-y_{2},...,w^{T}x_{N}-y_{N}]
[wTx1−y1,wTx2−y2,...,wTxN−yN]进行简单处理:
[
w
T
x
1
−
y
1
,
w
T
x
2
−
y
2
,
.
.
.
,
w
T
x
N
−
y
N
]
=
w
T
[
x
1
,
x
2
,
.
.
.
,
x
N
]
−
[
y
1
,
y
2
,
.
.
.
,
y
N
]
=
w
T
X
T
−
Y
T
[w^{T}x_{1}-y_{1},w^{T}x_{2}-y_{2},...,w^{T}x_{N}-y_{N}]=w^{T}[x_{1},x_{2},...,x_{N}]-[y_{1},y_{2},...,y_{N}]=w^{T}X^{T}-Y^{T}
[wTx1−y1,wTx2−y2,...,wTxN−yN]=wT[x1,x2,...,xN]−[y1,y2,...,yN]=wTXT−YT
同样的,后一项作为转置有:
(
w
T
X
T
−
Y
T
)
T
=
X
w
−
Y
(w^{T}X^{T}-Y^{T})^{T}=Xw-Y
(wTXT−YT)T=Xw−Y
得到:
L
(
w
)
=
(
w
T
X
T
−
Y
T
)
(
X
w
−
Y
)
=
w
T
X
T
X
w
−
2
w
T
X
T
Y
+
Y
T
Y
L(w)=(w^{T}X^{T}-Y^{T})(Xw-Y)=w^{T}X^{T}Xw-2w^{T}X^{T}Y+Y^{T}Y
L(w)=(wTXT−YT)(Xw−Y)=wTXTXw−2wTXTY+YTY
计算关于
w
w
w的偏导数,并令偏导数为0:
∂
L
(
w
)
∂
w
=
2
X
T
X
w
−
2
X
T
Y
=
0
⇒
w
=
(
X
T
X
)
−
1
X
T
Y
\frac{\partial L(w)}{\partial w}=2X^{T}Xw-2X^{T}Y=0\Rightarrow w=(X^{T}X)^{-1}X^{T}Y
∂w∂L(w)=2XTXw−2XTY=0⇒w=(XTX)−1XTY