1. 二项逻辑回归
1.1 对数几率
L
o
g
i
s
t
i
c
Logistic
Logistic 回归需要做的就是找到分类概率
P
(
Y
=
1
)
P(Y=1)
P(Y=1) 与输入向量
x
x
x 的直接关系,然后通过比较概率值来判断类别。所以,我们必须找到一个函数,使输入向量能够直接映射到概率所属的
[
0
,
1
]
[0,1]
[0,1] 中,且该函数最好是连续可导的,方便进行参数的优化,于是我们找到了以下的函数
y
=
1
1
+
e
−
(
w
T
x
+
b
)
y= \frac{1}{1+e^{-(w^Tx+b)}}
y=1+e−(wTx+b)1
我们将一个正例的概率与反例概率的比称之为几率,其对数形式就称为对数几率,设
y
y
y 为正例的概率,对数几率表达为
l
n
y
1
−
y
ln \frac{y}{1-y}
ln1−yy。将上面的函数式带入得到:
l
n
y
1
−
y
=
w
T
x
+
b
ln \frac{y}{1-y} = w^Tx+b
ln1−yy=wTx+b又因为
y
y
y 为正例,即
P
(
Y
=
1
∣
x
)
P(Y=1|x)
P(Y=1∣x) ,将其带入可得:
l
n
P
(
Y
=
1
∣
x
)
1
−
P
(
Y
=
1
∣
x
)
=
w
T
x
+
b
ln \frac{P(Y=1|x)}{1-P(Y=1|x)} = w^Tx+b
ln1−P(Y=1∣x)P(Y=1∣x)=wTx+b整理得到:
P
(
Y
=
1
∣
x
)
=
1
1
+
e
−
(
w
T
x
+
b
)
P(Y=1|x)= \frac{1}{1+e^{-(w^Tx+b)}}
P(Y=1∣x)=1+e−(wTx+b)1所以反例的概率为
1
−
y
1-y
1−y,即
P
(
Y
=
0
∣
x
)
=
e
−
(
w
T
x
+
b
)
1
+
e
−
(
w
T
x
+
b
)
P(Y=0|x)= \frac{e^{-(w^Tx+b)}}{1+e^{-(w^Tx+b)}}
P(Y=0∣x)=1+e−(wTx+b)e−(wTx+b)
1.2 损失函数
在这里回归的函数较常使用的是平方差公式来作为损失函数,但是,如果在这里也使用平方差公式的话是不可以的,原因在于 S i g m o i d Sigmoid Sigmoid 函数,即 y = 1 1 + e x y= \frac{1}{1+e^{x}} y=1+ex1 是一个复杂的非线性函数,我们将逻辑回归的假设函数带入上式中,得到是一个非凸函数,函数包含多个局部极小值点,使用梯度下降法求解损失函数最小值时,可能导致函数最后结果并非总是全局最小。所以,我们需要为逻辑回归找到一个凸代价函数,最常用的损失函数就是使用极大似然求解的式子,其可以为逻辑回归提供一个凸的代价函数,这样有利于使用梯度下降对参数求解。
令
P
(
Y
=
1
∣
x
)
=
g
(
x
)
P(Y=1|x)=g(x)
P(Y=1∣x)=g(x) 对逻辑回归使用极大似然法进行计算的式子为:
∏
i
=
1
N
g
(
x
i
)
y
i
[
1
−
g
(
x
i
)
]
1
−
y
i
\prod_{i=1}^N g(x_i)^{y_i}[1-g(x_i)]^{1-y_i}
i=1∏Ng(xi)yi[1−g(xi)]1−yi使用对数似然得到:
L
(
w
)
=
∑
i
=
1
N
[
y
i
log
g
(
x
i
)
+
(
1
−
y
i
)
log
(
1
−
g
(
x
i
)
)
]
=
∑
i
=
1
N
[
y
i
log
g
(
x
i
)
1
−
g
(
x
i
)
+
log
(
1
−
g
(
x
i
)
)
]
=
∑
i
=
1
N
[
y
i
(
w
⋅
x
i
)
−
log
(
1
+
e
w
⋅
x
i
)
]
\begin{aligned} L(w) &= \sum_{i=1}^N[y_i \log g(x_i)+(1-y_i) \log(1-g(x_i))] \\ &= \sum_{i=1}^N[y_i \log \frac{g(x_i)}{1-g(x_i)}+\log(1-g(x_i))] \\ &= \sum_{i=1}^N[y_i (w \cdot x_i)-\log(1+e^{w \cdot x_i})] \end{aligned}
L(w)=i=1∑N[yilogg(xi)+(1−yi)log(1−g(xi))]=i=1∑N[yilog1−g(xi)g(xi)+log(1−g(xi))]=i=1∑N[yi(w⋅xi)−log(1+ew⋅xi)]对
w
w
w 求导即可得到估计的参数。
2. 多项逻辑回归
上面介绍的逻辑斯谛回归模型是二项分类模型,用于二类分类。可以将其推广为多项逻辑斯谛回归模型,用于多类分类。假设离散型随机变量
Y
Y
Y 的取值集合是
{
1
,
2
,
⋅
⋅
⋅
,
K
}
\{1,2,···,K\}
{1,2,⋅⋅⋅,K}, 那么多项逻辑斯谛回归模型是
P
(
Y
=
k
∣
x
)
=
e
x
p
{
w
k
⋅
x
}
1
+
∑
k
=
1
K
−
1
e
x
p
{
w
k
⋅
x
}
P(Y=k|x)= \frac{exp\{w_k \cdot x\}}{1+ \sum_{k=1}^{K-1}exp\{w_k \cdot x \}}
P(Y=k∣x)=1+∑k=1K−1exp{wk⋅x}exp{wk⋅x}
P
(
Y
=
K
∣
x
)
=
1
1
+
∑
k
=
1
K
−
1
e
x
p
{
w
k
⋅
x
}
P(Y=K|x)= \frac{1}{1+ \sum_{k=1}^{K-1}exp\{w_k \cdot x \}}
P(Y=K∣x)=1+∑k=1K−1exp{wk⋅x}1