0 引言
在机器学习、数据挖掘中线性回归、Logistic回归(一种非线性回归)是比较基础而且常用回归与分类算法,比如结合L-BFGS优化算法在工业级的大规模推荐系统中被比较多地应用。
如果只了解这两个算法,那就陷入了只见树木不见森林的圈子。本文企图用一篇博客的篇幅让大家系统了解这一块儿的知识。
1 线性回归
1.1问题
给定训练数据集
T
=
{
(
x
i
,
y
i
)
∣
x
i
∈
R
n
,
y
i
∈
R
,
i
∈
{
1
,
2
,
.
.
,
N
}
}
T=\{(x_i,y_i)|x_i \in R^n, y_i \in R,i\in\{1,2,..,N\}\}
T={(xi,yi)∣xi∈Rn,yi∈R,i∈{1,2,..,N}}
注意,
x
i
x_i
xi是有n维特征的数据
(
x
i
1
,
x
i
2
,
.
.
.
,
x
i
n
)
(x_{i1},x_{i2},...,x_{in})
(xi1,xi2,...,xin),
(
x
i
,
y
i
)
(x_i,y_i)
(xi,yi)构成一条数据记录,
y
i
∈
R
y_i \in R
yi∈R。
要求构建合适的模型,根据给定数据
x
i
x_i
xi该模型能够准确拟合
y
i
y_i
yi。
1.2 数学模型
构建线性回归模型:
h
(
x
i
;
w
)
=
w
0
x
i
0
+
w
1
x
i
1
+
.
.
.
+
w
n
x
i
n
=
∑
j
=
0
n
w
j
x
i
j
\begin{aligned} h(x_i;w)&= w_0x_{i0}+w_1x_{i1}+...+w_nx_{in}\\ &=\sum_{j=0}^n {w_{j} x_{ij}} \end{aligned}
h(xi;w)=w0xi0+w1xi1+...+wnxin=j=0∑nwjxij
其中,
w
=
(
w
0
,
w
1
,
.
.
.
,
w
n
)
,
x
i
0
=
1
w=(w_0,w_1,...,w_n),x_{i0}=1
w=(w0,w1,...,wn),xi0=1,
线性回归的目的就是通过建立模型并通过选择合适的算法来求出合适的参数
w
i
w_i
wi下的
h
(
x
i
;
w
i
)
h(x_i;w_i)
h(xi;wi)和实际的
y
i
y_i
yi之间的差值尽量的小,也就是预测的准确率在训练集和测试集足够高。
进而我们可以定义损失函数:
L
(
w
)
=
1
N
∑
i
=
1
n
(
h
(
x
i
;
w
)
−
y
i
)
2
=
1
N
(
x
w
−
y
)
T
(
x
w
−
y
)
\begin{aligned} L(w)&=\frac{1}{N}\sum_{i=1}^n{(h(x_i;w)-y_i)^2} \\ &=\frac{1}{N}(xw-y)^T(xw-y) \end{aligned}
L(w)=N1i=1∑n(h(xi;w)−yi)2=N1(xw−y)T(xw−y)
从运筹优化的角度来看,该模型是无约束非线性优化问题:
min
w
L
(
w
)
,
x
∈
R
n
+
1
,
y
∈
R
\begin{aligned} &\min_w L(w) ,\ \ x\in R^{n+1}, y\in R \end{aligned}
wminL(w), x∈Rn+1,y∈R
1.3 求解方法
(1)当矩阵x为满秩矩阵时,可通过:
∂
L
(
w
)
∂
w
=
1
N
∂
(
w
T
x
T
x
w
−
w
T
x
T
y
−
y
T
x
w
−
y
T
y
)
∂
w
=
1
N
(
x
T
x
w
−
x
T
y
)
令
∂
L
(
w
)
∂
w
=
0
得到:
w
=
(
x
T
x
)
−
1
x
T
y
\begin{aligned} \frac {\partial L(w)}{\partial w}&=\frac {1}{N}\frac{\partial(w^Tx^Txw-w^Tx^Ty -y^Txw-y^Ty)}{\partial w} \\ &=\frac {1}{N}(x^Txw-x^Ty ) \\ \text{令} \frac {\partial L(w)}{\partial w}&=0 \text{得到:}\\ w&=(x^Tx)^{-1}x^Ty \end{aligned}
∂w∂L(w)令∂w∂L(w)w=N1∂w∂(wTxTxw−wTxTy−yTxw−yTy)=N1(xTxw−xTy)=0得到:=(xTx)−1xTy
缺点:
当矩阵x很大时,计算非常耗时且占用资源。
(2)当矩阵x不是满秩矩阵(大部分情况都是这种),可采用梯度下降算法。
初始化向量
w
w
w,对每个分量
w
j
w_j
wj沿着负梯度方向进行迭代:
w
j
(
t
+
1
)
=
w
j
(
t
)
−
α
∂
L
(
w
)
∂
w
j
\begin{aligned} w_j^{(t+1)}=w_j^{(t)} -\alpha \frac {\partial L(w)}{\partial w_j} \end{aligned}
wj(t+1)=wj(t)−α∂wj∂L(w)
直到梯度变化很小或者不变化时停止迭代。
梯度下降中涉及到的参数是,步长
α
\alpha
α,迭代次数t,这些对于计算最终的都会影响,所以需要调参优化。
常用的梯度下降算法有SGD,BGD,mBGD,实际中以mBGD使用最多。
1.4 过拟合处理
抑制过拟合最常用的方法是引入正则化项,也就惩罚项,给损失函数L(w)的参数w赋予一个约束项,使其不能任意的无限大或者无限小,将
L
p
L_p
Lp范数作为正则化项加入到损失函数:
L
(
w
)
=
1
N
∑
i
=
1
n
(
h
(
x
i
;
w
)
−
y
i
)
2
+
∣
∣
w
∣
∣
p
\begin{aligned} L(w)=\frac{1}{N}\sum_{i=1}^n{(h(x_i;w)-y_i)^2} + ||w||_p\\ \end{aligned}
L(w)=N1i=1∑n(h(xi;w)−yi)2+∣∣w∣∣p
关于
L
p
L_p
Lp范数的全面介绍请看本人另一篇博文:损失函数、风险函数及正则化知识系统总结
2 非线性回归
典型的非线性回归有 logistic回归、softmax回归等, logistic回归解决二分类问题,softmax回归是解决多分类问题,我们以logistics回归为例介绍。
2.1 logistic回归
2.1.1数据集
给定训练数据集
T
=
{
(
x
i
,
y
i
)
∣
x
i
∈
R
n
,
y
i
∈
{
0
,
1
}
,
i
∈
{
1
,
2
,
.
.
,
N
}
}
T=\{(x_i,y_i)|x_i \in R^n, y_i \in\{ 0,1\},i\in\{1,2,..,N\}\}
T={(xi,yi)∣xi∈Rn,yi∈{0,1},i∈{1,2,..,N}}
注意,
x
i
x_i
xi是有n维特征的向量,
(
x
i
,
y
i
)
(x_i,y_i)
(xi,yi)构成一条数据记录,
y
i
∈
{
0
,
1
}
y_i \in \{0,1\}
yi∈{0,1}。
2.1.2 数学模型
假设回归模型:
P
(
Y
=
1
∣
x
;
w
)
=
π
w
(
x
)
P
(
Y
=
0
∣
x
;
w
)
=
1
−
π
w
(
x
)
\begin{aligned} P(Y=1|x;w)&=\pi_w(x) \\ P(Y=0|x;w)&=1-\pi_w(x) \end{aligned}
P(Y=1∣x;w)P(Y=0∣x;w)=πw(x)=1−πw(x)
其中,w是待估计参数。
我们可以使用统计学中的极大似然估计法,首先写出似然函数:
L
(
w
)
=
∏
i
N
P
(
y
i
=
1
∣
x
i
;
w
)
y
i
P
(
y
i
=
0
∣
x
i
;
w
)
1
−
y
i
=
∏
i
N
π
w
(
x
i
)
y
i
(
1
−
π
w
(
x
i
)
)
1
−
y
i
\begin{aligned} L(w)&=\prod _i^N P(y_i=1|x_i;w)^{y_i}P(y_i=0|x_i;w)^{1-y_i}\\ &=\prod _i^N \pi_w(x_i)^{y_i} (1-\pi_w(x_i))^{1-y_i} \\ \end{aligned}
L(w)=i∏NP(yi=1∣xi;w)yiP(yi=0∣xi;w)1−yi=i∏Nπw(xi)yi(1−πw(xi))1−yi
似然函数中含有指数,所以最好取对数似然函数:
L
(
w
)
=
log
∏
i
N
P
(
y
i
=
1
∣
x
i
;
w
)
y
i
P
(
y
i
=
0
∣
x
i
;
w
)
1
−
y
i
=
log
∏
i
N
π
w
(
x
i
)
y
i
(
1
−
π
w
(
x
i
)
)
1
−
y
i
=
∑
i
N
(
y
i
log
π
w
(
x
i
)
+
(
1
−
y
i
)
log
(
1
−
π
w
(
x
i
)
)
)
=
∑
i
N
(
y
i
log
π
w
(
x
i
)
1
−
π
w
(
x
i
)
+
log
(
1
−
π
w
(
x
i
)
)
)
=
∑
i
N
(
y
i
(
w
x
i
′
)
+
log
(
1
+
e
w
x
i
′
)
)
\begin{aligned} L(w)&=\log \prod _i^N P(y_i=1|x_i;w)^{y_i}P(y_i=0|x_i;w)^{1-y_i}\\ &=\log \prod _i^N \pi_w(x_i)^{y_i} (1-\pi_w(x_i))^{1-y_i} \\ &=\sum_i^N({y_i} \log \pi_w(x_i)+({1-y_i}) \log(1 - \pi_w(x_i))) \\ &=\sum_i^N({y_i} \log \frac {\pi_w(x_i) }{1 - \pi_w(x_i)}+ \log(1 - \pi_w(x_i))) \\ &=\sum_i^N({y_i} (wx_i')+ \log(1 + e^{wx_i'})) \\ \end{aligned}
L(w)=logi∏NP(yi=1∣xi;w)yiP(yi=0∣xi;w)1−yi=logi∏Nπw(xi)yi(1−πw(xi))1−yi=i∑N(yilogπw(xi)+(1−yi)log(1−πw(xi)))=i∑N(yilog1−πw(xi)πw(xi)+log(1−πw(xi)))=i∑N(yi(wxi′)+log(1+ewxi′))
其中,
x
i
′
=
(
1
x
i
)
x_i'=\begin{pmatrix} 1 \\ x_i \end{pmatrix}
xi′=(1xi),
用
w
x
i
′
wx_i'
wxi′代换了
log
π
w
(
x
i
)
1
−
π
w
(
x
i
)
\log \frac {\pi_w(x_i) }{1 - \pi_w(x_i)}
log1−πw(xi)πw(xi),这是因为logistic回归定义的输入输出关系就是输出
Y
=
1
Y=1
Y=1的几率的对数等于
x
x
x的线性函数,即:
log
π
w
(
x
i
)
1
−
π
w
(
x
i
)
=
w
x
i
′
,
w
∈
R
n
+
1
,
x
∈
R
n
+
1
\log \frac {\pi_w(x_i) }{1 - \pi_w(x_i)}=wx_i',\\ w\in R^{n+1},\\ x\in R^{n+1}
log1−πw(xi)πw(xi)=wxi′,w∈Rn+1,x∈Rn+1
极大似然估计法就是求:
w
∗
=
arg
max
w
L
(
w
)
w^*=\arg \max_w L(w)
w∗=argwmaxL(w)
从运筹优化的角度来看,该模型是一个无约束非线性优化问题:
max
w
L
(
w
)
,
w
∈
R
n
+
1
.
\max_w L(w) ,\\ w \in R^{n+1}.
wmaxL(w),w∈Rn+1.
2.1.3 求解方法
由数学模型可知,L(w)为无约束、可微函数,我们可以考虑使用梯度下降算法、牛顿法、拟牛顿法等等,在应用这些优化算法之前需要先将问题转化成最小化问题,即:
min
w
−
L
(
w
)
,
w
∈
R
n
+
1
.
\min_w-L(w) ,\\ w \in R^{n+1}.
wmin−L(w),w∈Rn+1.
2.1.4 过拟合处理
过拟合处理方式同2.4节介绍的方法,也是在 L ( w ) L(w) L(w)基础上加入正则化项,通常是L1,L2正则化项。
3 广义线性回归
广义线性模型 (generalized linear model) 是在普通线性模型的基础上推广而得出的应用范围更广,更具实用性的回归模型。
广义线性模型可以定义为:
Y
=
f
(
w
0
x
i
0
+
w
1
x
i
1
+
.
.
.
+
w
n
x
i
n
)
Y=f(w_0x_{i0}+w_1x_{i1}+...+w_nx_{in})
Y=f(w0xi0+w1xi1+...+wnxin)
其中,
f
(
.
)
f(.)
f(.)函数称为link function,意思是通过该函数将Y和
w
0
x
i
0
+
w
1
x
i
1
+
.
.
.
+
w
n
x
i
n
w_0x_{i0}+w_1x_{i1}+...+w_nx_{in}
w0xi0+w1xi1+...+wnxin联结起来;
显而易见,线性回归模型的link function就是 f ( x ) = x f(x)=x f(x)=x,且 Y Y Y服从正态分布;
广义线性模型与普通线性模型的区别为:
(1)响应变量
Y
Y
Y的分布推广至指数分散族 (exponential dispersion family):比如正态分布、泊松分布、二项分布、负二项分布、伽玛分布、逆高斯分布;
(2)预测量和未知参数的非随机性:仍然假设预测量 具有非随机性、可测且不存在测量误差;未知参数 认为是未知且不具有随机性的常数;
(3)研究对象:广义线性模型的主要研究对象仍然是响应变量的均值 ;
(4)联接方式:广义线性模型里采用的联连函数 (link function) 理论上可以是任意的,而不再局限于
f
(
x
)
=
x
f(x)=x
f(x)=x当然了联接函数的选取必然地必须适应于具体的研究案例。同时存在着与(1)里提及的分布对应的联接函数,称之为标准联接函数(canonical link or standard link),如正态分布对应于恒等式,泊松分布对应于自然对数函数等。标准联接函数的推导及其应用上的优点涉及到指数分散族的标准化定义,这里不做详述。
指数分布族中的一类分布都可以用下面一个统一的公式描述:
p
(
y
;
η
)
=
b
(
y
)
e
η
T
(
y
)
−
a
(
η
)
p(y;\eta)=b(y)e^{\eta T(y)-a(\eta)}
p(y;η)=b(y)eηT(y)−a(η)
其中:
b
(
y
)
b(y)
b(y):是底层观测值(underlying measure);
η
\eta
η:分布的自然参数,跟具体分布有关,通常
η
=
w
T
x
\eta=w^Tx
η=wTx;
T
(
y
)
T(y)
T(y):充分统计量(sufficient statistic),通常取
T
(
y
)
=
y
T(y)=y
T(y)=y;
a
(
η
)
a(\eta)
a(η):log partition function,
e
−
a
(
η
)
e^{-a(\eta)}
e−a(η)本质上起着规范化常数的作用,保证概率分布
∑
(
y
;
η
)
\sum(y;\eta)
∑(y;η)为1。
当T、a、b固定之后实际上就确定了指数分布族中的一种分布模型,就得到了以η为参数的模型。
比如指定:
b
(
y
)
=
1
2
π
e
(
−
y
2
2
)
b(y)=\frac{1}{\sqrt{\smash[b]{2\pi}}}e^{(-\frac {y^2}{2})}
b(y)=2π1e(−2y2),
η
=
μ
\eta=\mu
η=μ,
T
(
y
)
=
y
T(y)=y
T(y)=y,
a
(
η
)
=
μ
2
2
=
η
2
2
a(\eta)=\frac{\mu^2}{2}=\frac{\eta^2}{2}
a(η)=2μ2=2η2,
这样就得到了线性回归模型。
发现一篇博客比较详细地介绍了推导过程,推荐大家直接参考:从广义线性模型(GLM)理解逻辑回归
4 参考资料
[1].统计机器学习,李航;
[2].从线性模型到广义线性模型(1)——模型假设篇,张缔香;