1、定义
二项逻辑斯谛回归模型,是如下的条件概率分布。
(1)
P
(
Y
=
1
∣
x
)
=
e
w
x
1
+
e
w
x
P(Y=1|x)= \frac{e^{wx}}{1+e^{wx}} \tag{1}
P(Y=1∣x)=1+ewxewx(1)
(2)
P
(
Y
=
0
∣
x
)
=
1
1
+
e
w
x
P(Y=0|x)= \frac{1}{1+e^{wx}} \tag{2}
P(Y=0∣x)=1+ewx1(2)
注意,这里为了方便已经将b扩充入
w
w
w。公式(2)可以看做
1
1
+
e
−
z
\frac{1}{1+e^{-z}}
1+e−z1,(Sigmoid函数)如下图
2、事件的几率
指的是事件发生的概率与该事件不发生的概率的比值。假设事件发生的概率是
p
p
p,那么该事件的几率是
p
1
−
p
\frac{p}{1-p}
1−pp,对于逻辑斯谛回归模型而言,事件几率取log如下:
l
o
g
P
(
Y
=
1
∣
x
)
1
−
P
(
Y
=
1
∣
x
)
=
w
⋅
x
log \frac{P(Y=1|x)}{1-P(Y=1|x)}=w \cdot x
log1−P(Y=1∣x)P(Y=1∣x)=w⋅x
3、模型参数估计
假设:
P
(
Y
=
1
∣
x
)
=
π
(
x
)
,
P
(
Y
=
0
∣
x
)
=
1
−
π
(
x
)
P(Y=1|x)= \pi(x),P(Y=0|x)= 1-\pi(x)
P(Y=1∣x)=π(x),P(Y=0∣x)=1−π(x)
似然函数:
(3)
∏
i
=
1
N
[
π
(
x
i
)
]
y
i
[
1
−
π
(
x
i
)
]
1
−
y
i
\prod_{i=1}^{N}[\pi(x_i)]^{y_i}[1-\pi(x_i)]^{1-y_i} \tag{3}
i=1∏N[π(xi)]yi[1−π(xi)]1−yi(3)
公式(3)表明,对于正样本而言,
y
i
=
1
y_i=1
yi=1使得右边的项为1,对于负样本而言,
y
i
=
0
y_i=0
yi=0使得左边的项为1。即满足所有样本的概率最大。
对数似然函数:
(4)
L
(
w
)
=
∑
i
=
1
N
[
y
i
l
o
g
π
(
x
i
)
+
(
1
−
y
i
)
l
o
g
(
1
−
π
(
x
i
)
)
]
=
∑
i
=
1
N
[
y
i
l
o
g
π
(
x
i
)
1
−
π
(
x
i
)
+
l
o
g
(
1
−
π
(
x
i
)
)
]
=
∑
i
=
1
N
[
y
i
(
w
⋅
x
i
)
−
l
o
g
(
1
+
e
w
⋅
x
i
)
]
L(w)= \sum_{i=1}^{N}[y_ilog \pi(x_i)+(1-y_i)log(1-\pi(x_i))] \\ = \sum_{i=1}^{N}[y_ilog\frac{\pi(x_i)}{1-\pi(x_i)}+log(1-\pi(x_i))]=\sum_{i=1}^{N}[y_i(w\cdot x_i)-log(1+e^{w\cdot x_i})] \tag{4}
L(w)=i=1∑N[yilogπ(xi)+(1−yi)log(1−π(xi))]=i=1∑N[yilog1−π(xi)π(xi)+log(1−π(xi))]=i=1∑N[yi(w⋅xi)−log(1+ew⋅xi)](4)
如公式(4)所示,求解的是最大值问题,可以用梯度下降法(这里求最大值,实际是梯度上升,或者加负号变成梯度下降法)等优化方法求解参数
w
w
w
假设求得参数
w
^
\hat{w}
w^。代入公式(1)(2)即可得模型。