回归
首先理解回归与分类的区别:回归的y值是针对连续值的,而分类中的y值则为离散值。
下面介绍几种重要的回归
线性回归
通常回归可以写成这样的形式(两个变量):
hθ(x)=θ0+θ1x1+θ2x2
h
θ
(
x
)
=
θ
0
+
θ
1
x
1
+
θ
2
x
2
而对于多变量的情况,则可以写成向量形式:
hθ(x)=∑i=0mθixi=θTx
h
θ
(
x
)
=
∑
i
=
0
m
θ
i
x
i
=
θ
T
x
对于回归,我们最常用的方法是最小二乘,下面通过极大似然估计来解释最小二乘。
对于回归函数:
y(i)=θTx(i)+ε(i)
y
(
i
)
=
θ
T
x
(
i
)
+
ε
(
i
)
我们假设误差
ε(i)(1≤i≤m)
ε
(
i
)
(
1
≤
i
≤
m
)
是独立同分布的,且服从均值为0,方差为
σ2
σ
2
的高斯分布。
所以有:
p(ε(i))=12π√σexp(−(ε(i))22σ2)
p
(
ε
(
i
)
)
=
1
2
π
σ
exp
(
−
(
ε
(
i
)
)
2
2
σ
2
)
p(y(i)∣∣x(i);θ)=12π√σexp(−(y(i)−θTx(i))22σ2)
p
(
y
(
i
)
|
x
(
i
)
;
θ
)
=
1
2
π
σ
exp
(
−
(
y
(
i
)
−
θ
T
x
(
i
)
)
2
2
σ
2
)
L(θ)=∏i=1mp(y(i)∣∣x(i);θ)
L
(
θ
)
=
∏
i
=
1
m
p
(
y
(
i
)
|
x
(
i
)
;
θ
)
,即:
L(θ)=∏i=1m12π√σexp(−(y(i)−θTx(i))22σ2)
L
(
θ
)
=
∏
i
=
1
m
1
2
π
σ
exp
(
−
(
y
(
i
)
−
θ
T
x
(
i
)
)
2
2
σ
2
)
对数似然函数为:
目标函数为:
J(θ)=12∑i=1m(y(i)−θTx(i))2
J
(
θ
)
=
1
2
∑
i
=
1
m
(
y
(
i
)
−
θ
T
x
(
i
)
)
2
下面求解
θ
θ
:
目标函数:
J(θ)=12∑i=1m(y(i)−θTx(i))2=12(Xθ−y)T(Xθ−y)
J
(
θ
)
=
1
2
∑
i
=
1
m
(
y
(
i
)
−
θ
T
x
(
i
)
)
2
=
1
2
(
X
θ
−
y
)
T
(
X
θ
−
y
)
其中M个N维样本组成矩阵X:
–X的每一行对应一个样本,一共有M个样本
–X的每一列对应一个特征,一共有N个特征,还有一维常数项,全为1.
计算梯度:
参数的解析式:
θ=(XTX)−1XTy
θ
=
(
X
T
X
)
−
1
X
T
y
若
XTX
X
T
X
不可逆或者为了防止过拟合,需要增加
λ
λ
扰动:
θ=(XTX+λI)−1XTy
θ
=
(
X
T
X
+
λ
I
)
−
1
X
T
y
说明:
XTX
X
T
X
是半正定的,则对于
XTX+λI
X
T
X
+
λ
I
一定是正定的,从而
XTX+λI
X
T
X
+
λ
I
可逆,则参数一定有解。
线性回归的正则项(防止过拟合):
目标函数为:
J(θ)=12∑i=1m(y(i)−θTx(i))2
J
(
θ
)
=
1
2
∑
i
=
1
m
(
y
(
i
)
−
θ
T
x
(
i
)
)
2
L1-正则项:
J(θ)=12∑i=1m(y(i)−θTx(i))2+λ∑j=1n|θj|
J
(
θ
)
=
1
2
∑
i
=
1
m
(
y
(
i
)
−
θ
T
x
(
i
)
)
2
+
λ
∑
j
=
1
n
|
θ
j
|
L2-正则项:
J(θ)=12∑i=1m(y(i)−θTx(i))2+λ∑j=1nθ2j
J
(
θ
)
=
1
2
∑
i
=
1
m
(
y
(
i
)
−
θ
T
x
(
i
)
)
2
+
λ
∑
j
=
1
n
θ
j
2
Elastic Net:
说明:对于线性回归,L1正则化就相当于岭回归,L2正则化就相当于岭回归。
logistic回归
Logistic/Sigmoid函数
hθ(x)=g(θTx)=11+e−θTx
h
θ
(
x
)
=
g
(
θ
T
x
)
=
1
1
+
e
−
θ
T
x
g′(x)=(11+e−x)′=e−x(1+e−x)2
g
′
(
x
)
=
(
1
1
+
e
−
x
)
′
=
e
−
x
(
1
+
e
−
x
)
2
,
g′(x)=11+e−x∙e−x1+e−x=11+e−x∙(1−11+e−x)=g(x)(1−g(x))
g
′
(
x
)
=
1
1
+
e
−
x
∙
e
−
x
1
+
e
−
x
=
1
1
+
e
−
x
∙
(
1
−
1
1
+
e
−
x
)
=
g
(
x
)
(
1
−
g
(
x
)
)
Logistic回归参数估计
假设:
P(y=1|x;θ)=hθ(x)
P
(
y
=
1
|
x
;
θ
)
=
h
θ
(
x
)
;
P(y=0|x;θ)=1−hθ(x)
P
(
y
=
0
|
x
;
θ
)
=
1
−
h
θ
(
x
)
p(y|x;θ)=(hθ(x))y(1−hθ(x))1−y
p
(
y
|
x
;
θ
)
=
(
h
θ
(
x
)
)
y
(
1
−
h
θ
(
x
)
)
1
−
y
似然函数:
对数似然:
对数线性模型
一个事件的几率odds,是指该事件发生的概率与不发生的概率的比值。
对数几率:logit函数
P(y=1|x;θ)=hθ(x)
P
(
y
=
1
|
x
;
θ
)
=
h
θ
(
x
)
P(y=0|x;θ)=1−hθ(x)
P
(
y
=
0
|
x
;
θ
)
=
1
−
h
θ
(
x
)
Logistic回归的损失函数
yi∈{0,1}
y
i
∈
{
0
,
1
}
Logistic回归的损失函数
yi∈{−1,1}
y
i
∈
{
−
1
,
1
}
广义线性模型GLM
y不再只是高斯分布,而是扩大为指数族中的任意分布;
变量
x→g(x)→y
x
→
g
(
x
)
→
y
,连接函数g单调可导。
如线性回归中
g(z)=z
g
(
z
)
=
z
;logistic回归中
g(z)=11+e−z
g
(
z
)
=
1
1
+
e
−
z
Softmax回归
K分类,第k类的参数为
θ⃗ k
θ
→
k
,组成二维矩阵
θk×n
θ
k
×
n
概率:
p(c=k|x;θ)=exp(θTkx)∑l=1Kexp(θTlx),k=1,2⋯,K
p
(
c
=
k
|
x
;
θ
)
=
exp
(
θ
k
T
x
)
∑
l
=
1
K
exp
(
θ
l
T
x
)
,
k
=
1
,
2
⋯
,
K
似然函数:
对数似然:
随机梯度:
∂J(θ)∂θk=(yk−p(yk|x;θ))x
∂
J
(
θ
)
∂
θ
k
=
(
y
k
−
p
(
y
k
|
x
;
θ
)
)
x