二类逻辑回归
逻辑回归虽然带有“回归”两个字,但是却是一个分类模型。之所以带有“回归”二字是因为,最早在统计领域中,用线性回归模型来预测事件发生的log几率。之所以说是逻辑回归,是因为该模型化简转化后中,事件发生的概率等于特征的线性转换
w
T
x
w^Tx
wTx输入到一个Logistic Sigmoid函数[1],简称Logistic函数,是一种Sigmoid函数[2]。
f
(
x
)
=
1
e
−
w
T
x
,
(
1
)
f(x)=\frac{1}{e^{-w^Tx}},~~~~(1)
f(x)=e−wTx1, (1)
即
f
(
x
)
=
e
w
T
x
1
+
e
w
T
x
。
(
2
)
f(x)=\frac{e^{w^Tx}}{1+e^{w^Tx}}。~~~~(2)
f(x)=1+ewTxewTx。 (2)
相当于用
f
(
x
)
f(x)
f(x)的值来拟合条件概率
P
(
Y
=
1
∣
X
=
x
)
P(Y=1|X=x)
P(Y=1∣X=x)的值,则
P
(
Y
=
0
∣
X
=
x
)
=
1
−
f
(
x
)
P(Y=0|X=x)=1-f(x)
P(Y=0∣X=x)=1−f(x),这样保证两类概率和等于1,因此叫二类逻辑回归。
二类逻辑回归可以利用极大似然法来求确定优化目标(策略),最后利用随机梯度下降或者拟牛顿法进行优化求解(算法)。
多类逻辑回归
在李航《统计学习方法》中,根据(2)式,李航将二类逻辑回归拓展为多类逻辑回归,
K
K
K类分类模型具体形式如下:
P
(
Y
=
c
∣
X
=
x
)
=
e
w
c
T
x
1
+
∑
k
=
1
K
−
1
e
w
k
T
x
,
c
=
1
,
.
.
.
,
K
−
1
,
P(Y=c|X=x)=\frac{e^{w_c^Tx}}{1+\sum\limits_{k=1}^{K-1}e^{w_k^Tx}},c=1,...,K-1,
P(Y=c∣X=x)=1+k=1∑K−1ewkTxewcTx,c=1,...,K−1,
P
(
Y
=
K
∣
X
=
x
)
=
1
1
+
∑
k
=
1
K
−
1
e
w
k
T
x
,
c
=
K
。
P(Y=K|X=x)=\frac{1}{1+\sum\limits_{k=1}^{K-1}e^{w_k^Tx}},c=K。
P(Y=K∣X=x)=1+k=1∑K−1ewkTx1,c=K。
从上可以看出,该种多类逻辑回归仅需
K
−
1
K-1
K−1组权重。
而在更多的地方,比如在PRML中,多类逻辑回归利用一种特殊的激励函数
s
o
f
t
m
a
x
softmax
softmax转换实现:
P
(
Y
=
c
∣
X
=
x
)
=
e
w
c
T
x
∑
k
=
1
K
e
w
k
T
x
,
c
=
1
,
.
.
.
,
K
。
P(Y=c|X=x)=\frac{e^{w_c^Tx}}{\sum\limits_{k=1}^{K}e^{w_k^Tx}},c=1,...,K。
P(Y=c∣X=x)=k=1∑KewkTxewcTx,c=1,...,K。
s
o
f
t
m
a
x
softmax
softmax转换实际是一种概率归一化技术。
在基于
s
o
f
t
m
a
x
softmax
softmax的多类逻辑回归中,需要确定
K
K
K组权重。此时的多类逻辑回归相当于1层权重的多类分类神经网络模型。
[1] PRML p209.
[2] 机器学习,周志华,p58。