Linear Regression-线性回归
一元线性回归
一元线性回归,即一元线性函数f(x)=wx+b的拟合问题。
使用的求解方法——最小二乘法,即最小化均方误差。
关于均方误差,即残差平方的均值
∑
n
=
1
N
e
n
2
=
∑
n
=
1
N
(
y
n
−
w
x
n
−
b
)
2
\sum^N_{n=1}{e_n^2} = \sum^N_{n=1}{(y_n-wx_n-b)}^2
n=1∑Nen2=n=1∑N(yn−wxn−b)2
则最小二乘法,即是求一组拟合参数w和b,使得均方误差最小,即
(
w
∗
,
b
∗
)
=
a
r
g
min
w
,
b
∑
i
=
1
N
(
y
i
−
w
x
i
−
b
)
2
(w^*,b^*) = arg\min_{w,b}\sum^N_{i=1}{(y_i-wx_i-b)}^2
(w∗,b∗)=argw,bmini=1∑N(yi−wxi−b)2
至于最小二乘法的求解方法,即w*,b*的求法,我们使得
E
(
w
,
b
)
=
∑
i
=
1
N
(
y
i
−
w
x
i
−
b
)
2
E(w,b) = \sum^N_{i=1}{(y_i-wx_i-b)}^2
E(w,b)=i=1∑N(yi−wxi−b)2对w与b的偏导均为0即可,如下所示
∂
E
(
w
,
b
)
∂
w
=
2
(
w
∑
i
=
1
N
x
i
2
−
∑
i
=
1
N
(
y
i
−
b
)
x
i
)
=
0
\frac{\partial E(w,b)}{\partial w} = 2(w\sum^N_{i=1}x_i^2-\sum^N_{i=1}{(y_i-b)x_i} )= 0
∂w∂E(w,b)=2(wi=1∑Nxi2−i=1∑N(yi−b)xi)=0
∂
E
(
w
,
b
)
∂
b
=
2
(
N
b
−
∑
i
=
1
N
(
y
i
−
w
x
i
)
)
=
0
\frac{\partial E(w,b)}{\partial b} = 2(Nb-\sum^N_{i=1}{(y_i-wx_i)})= 0
∂b∂E(w,b)=2(Nb−i=1∑N(yi−wxi))=0
解以上两式,可得闭式解
w
∗
=
∑
i
=
1
N
x
i
y
i
−
n
x
ˉ
y
ˉ
∑
i
=
1
N
x
i
2
−
n
x
2
w^*= \frac{\sum^N_{i=1}{x_iy_i}-n\bar{x}\bar{y}}{\sum^N_{i=1}x_i^2-nx^2}
w∗=∑i=1Nxi2−nx2∑i=1Nxiyi−nxˉyˉ
b
∗
=
y
ˉ
−
w
∗
x
ˉ
b^* = \bar{y}-w^*\bar{x}
b∗=yˉ−w∗xˉ
多元线性回归
使得w = [w1,w2,……,wD, b],则多元最小二乘法变为
w
∗
=
a
r
g
min
w
∣
∣
y-Xw
∣
∣
2
2
\textbf{w}^* = arg\min_w||\textbf{y-Xw}||^2_2
w∗=argwmin∣∣y-Xw∣∣22
E(w)=||y-Xw||22=(y-Xw)T(y-Xw)
求解最小二乘法
∂
E
(
w
)
∂
w
=
−
2
X
T
(
y
−
X
w
)
=
2
X
T
X
w
−
2
X
T
y
=
0
\frac{\partial E(w)}{\partial w} = -2X^T(y-Xw)= 2X^TXw-2X^Ty= 0
∂w∂E(w)=−2XT(y−Xw)=2XTXw−2XTy=0
解得w*= (XTX)-1XTy
注:此答案的前提是XTX可逆
当我们对原问题加入正则化和岭回归后,原式化为
w*= (XTX+lambda I)-1XTy
一个拓展——对数线性回归
对于所预测的函数值y与x呈指数关系时,可将y对数化后,再进行线性回归
y
=
e
(
w
T
x
+
b
)
y = e^{(w^Tx+b)}
y=e(wTx+b)
lny = wTx+b
即y‘=g(y)=wTx ,在本情况中g(·)即为ln(·)
即y= g-1(wTx)
Logisitic Regression-逻辑斯蒂回归
叫做逻辑斯蒂回归,其实是一个用于分类的分类器
原先的线性回归,最终y=wx+b得到的是任意的一个预测值,而当我们想要将其转化为分类问题时,对于最简单的二分类问题,即是将结果映射为0和1两个标签值的过程,显然我们需要在线性回归后再添加一步分类的操作。
我们最初想到的分类器,应该是类似于符号函数这种
y
=
{
0
z
<
0
0.5
z
=
0
1
z
>
0
y=\begin{cases} 0 & z < 0 \\ 0.5 & z = 0 \\ 1 & z>0 \end{cases}
y=⎩⎪⎨⎪⎧00.51z<0z=0z>0
但,不连续即不能保证可微的严格性,在深度学习上是硬伤。因此我们需要找到一个具有类似功能的函数。
于是我们找到了对数几率函数
y
=
1
1
+
e
−
z
y= \frac{1}{1+e^{-z}}
y=1+e−z1
它具有单调可微与任意阶可导的性质,并且能够将函数值压缩到(0,1)之间,正是我们需要的
注意到,我们使得z=wTx,则能够得到y=1/exp(-z)能够类似地表示事件发生,即正类的概率,1-y则表示负类的概率
于是有
l
n
y
1
−
y
=
w
T
x
=
l
n
p
(
y
=
1
,
x
;
w
)
p
(
y
=
0
,
x
;
w
)
=
l
n
p
(
y
=
1
∣
x
;
w
)
p
(
x
)
p
(
y
=
0
∣
x
;
w
)
p
(
x
)
=
l
n
p
(
y
=
1
∣
x
;
w
)
p
(
y
=
0
∣
x
;
w
)
ln\frac{y}{1-y} = w^Tx=ln\frac{p(y=1,x;w)}{p(y=0,x;w)}=ln\frac{p(y=1|x;w)p(x)}{p(y=0|x;w)p(x)}= ln\frac{p(y=1|x;w)}{p(y=0|x;w)}
ln1−yy=wTx=lnp(y=0,x;w)p(y=1,x;w)=lnp(y=0∣x;w)p(x)p(y=1∣x;w)p(x)=lnp(y=0∣x;w)p(y=1∣x;w)
值得一提的是,在多分类问题中,我们常将x替换为x1,x2……xN等,我们常常对其使用极大似然估计
正则化
对于我们的目标函数,例如线性回归问题的均方误差,常由两部分组成,分别为数据项和正则化项
O
(
x
)
=
D
(
x
)
+
λ
R
(
x
)
O(x)= D(x)+\lambda R(x)
O(x)=D(x)+λR(x)
关于数据项D(x),即针对于分类or回归的目标,使得分类尽可能正确or回归的误差尽可能小
关于lambda,是调节两项权重分配的一个常数
关于正则化项R(x),即对参数(解)空间的一些限制,以体现对问题的一些要求or约束,同时可以控制模型的复杂度,看做一种函数的先验。当我们对较为稀疏的数据进行处理时,常常使用一范数
关于最小均方误差的问题,我们常对其使用岭回归
min
x
1
/
2
∣
∣
y
−
A
x
∣
∣
2
2
+
λ
∣
∣
x
∣
∣
2
2
\min_x1/2||y-Ax||^2_2+\lambda||x||^2_2
xmin1/2∣∣y−Ax∣∣22+λ∣∣x∣∣22
类别不平衡问题
关于类别不平衡的问题,即正负(各类)样本分布不均的情况。
有过采样和降采样两种解决问题的方法
以二分类问题为例,当正例数目过少,我们可以通过过采样的方法,来增加正例样本的数目。具体手段有,样本复制、样本插值、样本生成
当负例数目过多,我们可以通过降采样的方法,来减少负例样本的比例,具体手段比如集成学习(中的自助法取样)
另外,从损失函数的角度来说,可以使用加权损失函数的方法。在一般的损失函数中,我们常将所有样本赋以相同的权重1/N
在加权损失函数中,我们按正常损失函数的权重,分别计算正例/负例的损失函数,并乘以负例/正例在所有样本中所占的比例。之所以对正负例的占比作交换,是为了平衡类别数不均,对损失函数所造成的影响