逻辑回归
逻辑回归是统计学习中的经典分类方法,属于对数线性模型。
1 逻辑回归
设
X
X
X是连续随机变量,
X
X
X服从逻辑分布是指
X
X
X具有下列分布函数和密度函数:
F
(
x
)
=
P
(
X
≤
x
)
=
1
1
+
e
−
(
x
−
μ
)
/
γ
F(x)=P(X \leq x)= \frac{1}{1+e^{-(x- \mu)/\gamma}}
F(x)=P(X≤x)=1+e−(x−μ)/γ1
f
(
x
)
=
F
′
(
x
)
=
e
−
(
x
−
μ
)
/
γ
γ
(
1
+
e
−
(
x
−
μ
)
/
γ
)
2
f(x)=F^{'}(x)=\frac{e^{-(x-\mu)/\gamma}}{\gamma(1+e^{-(x-\mu)/\gamma})^2}
f(x)=F′(x)=γ(1+e−(x−μ)/γ)2e−(x−μ)/γ
其中,
μ
\mu
μ为位置参数,
γ
\gamma
γ 为形状参数。
2 二项逻辑回归模型
二项逻辑回归模型是如下的条件概率分布:
P
(
Y
=
1
∣
x
)
=
e
w
x
+
b
1
+
e
w
x
+
b
P(Y=1|x)=\frac{e^{wx+b}}{1+e^{wx+b}}
P(Y=1∣x)=1+ewx+bewx+b
P
(
Y
=
0
∣
x
)
=
1
1
+
e
w
x
+
b
P(Y=0|x)=\frac{1}{1+e^{wx+b}}
P(Y=0∣x)=1+ewx+b1
如果时间发生的概率是
p
p
p,那么该事件的几率是
p
1
−
p
\frac{p}{1-p}
1−pp,该事件的对数几率:
l
o
g
i
t
(
p
)
=
l
o
g
p
1
−
p
logit(p)=log\frac{p}{1-p}
logit(p)=log1−pp
3 模型参数估计
设:
P
(
Y
=
1
∣
x
)
=
π
,
P
(
Y
=
0
∣
x
)
=
1
−
π
P(Y=1|x)=\pi,P(Y=0|x)=1-\pi
P(Y=1∣x)=π,P(Y=0∣x)=1−π
似然函数为:
∏
i
=
1
N
[
π
(
x
i
)
]
y
i
[
1
−
π
(
x
i
)
]
1
−
y
i
\prod_{i=1}^N[\pi(x_i)]^{y_i}[1-\pi(x_i)]^{1-y_i}
i=1∏N[π(xi)]yi[1−π(xi)]1−yi
对数似然函数为:
L
(
w
)
=
∑
i
=
1
N
[
y
i
l
o
g
π
(
x
i
)
+
(
1
−
y
i
)
l
o
g
(
1
−
π
(
x
i
)
)
]
L(w)=\sum_{i=1}^N[y_ilog\pi(x_i)+(1-y_i)log(1-\pi(x_i))]
L(w)=i=1∑N[yilogπ(xi)+(1−yi)log(1−π(xi))]
=
∑
i
=
1
N
[
y
i
l
o
g
π
(
x
i
)
1
−
π
(
x
i
)
+
l
o
g
(
1
−
π
(
x
i
)
]
=\sum_{i=1}^N[y_ilog\frac{\pi(x_i)}{1-\pi(x_i)}+log(1-\pi(x_i)]
=i=1∑N[yilog1−π(xi)π(xi)+log(1−π(xi)]
=
∑
i
=
1
N
[
y
i
(
w
x
i
)
−
l
o
g
(
1
+
e
w
x
i
)
]
=\sum_{i=1}^N[y_i(wx_i)-log(1+e^{wx_i})]
=i=1∑N[yi(wxi)−log(1+ewxi)]
对
L
(
w
)
L(w)
L(w)求极大值,得到
w
w
w的估计值。
这样问题就转换成了以对数似然函数为目标函数的最优化问题。通常采用梯度下降法和拟牛顿法。
4 多项逻辑回归
二项逻辑回归模型用于二分类,将其推广到多项逻辑回归模型:
P
(
Y
=
k
∣
x
)
=
e
w
k
x
1
+
∑
k
=
1
K
−
1
e
w
k
x
,
k
=
1
,
2
,
3...
K
−
1
P(Y=k|x)=\frac{e^{w_kx}}{1+\sum_{k=1}^{K-1} e^{w_kx}}, k=1,2,3...K-1
P(Y=k∣x)=1+∑k=1K−1ewkxewkx,k=1,2,3...K−1
P
(
Y
=
K
∣
x
)
=
1
1
+
∑
k
=
1
K
−
1
e
w
k
x
P(Y=K|x)=\frac{1}{1+\sum_{k=1}^{K-1} e^{w_kx}}
P(Y=K∣x)=1+∑k=1K−1ewkx1