1. 逻辑回归
逻辑回归是一个二分类问题。尽管与线性回归模型所解决的问题不同,但他们有许多相似之处。线性回归拟合线(超平面)来预测真实值,逻辑回归拟合线(超平面)来将样本分开。
相比于线性回归模型:
y
^
=
X
×
β
,
\hat{y} = X \times \beta,
y^=X×β,
逻辑回归模型通过非线性函数(sigmoid)将输入的加权和压缩到0-1:
y
^
=
1
1
+
e
x
p
(
−
(
X
×
β
)
)
.
\hat{y} = \frac{1}{1 + exp(-(X \times \beta))}.
y^=1+exp(−(X×β))1.
y-hat服从binomial probability distribution。
和线性回归模型求解一样,我们可以通过最小二乘法or最大似然估计法来求解逻辑回归模型。
2. Log-Odds
在开始介绍基于最大似然估计法之前,我们先来理解一下逻辑回归真正在计算什么? 这可能是最难理解的一部分。
什么是odds?odds通常由 (wins:losses)来表示。给定逻辑回归模型预测的类别为1的概率p下,我们称odds of success(成功的机率)为:
o
d
d
s
=
o
d
d
s
o
f
s
u
c
c
e
s
s
=
p
1
−
p
.
\rm odds = odds \ of \ success = \frac{p}{1 - p}.
odds=odds of success=1−pp.
逻辑回归模型中线性部分(输入的加权和)计算的是一个成功事件(类别为1)的log-odds,换句话说,log-odds是属于类别1的样本的加权和:
l
o
g
o
d
d
s
=
β
0
+
β
1
×
x
1
+
.
.
.
+
β
n
×
x
n
.
\rm log \ odds = \beta_0 +\beta_1 \times x_1 + ... + \beta_n \times x_n .
log odds=β0+β1×x1+...+βn×xn.
同时:
o
d
d
s
=
e
x
p
(
l
o
g
o
d
d
)
.
\rm odds = exp(log \ odd).
odds=exp(log odd).
因此:
p
=
o
d
d
s
o
d
d
s
+
1
.
p = \frac{\rm odds}{\rm odds + 1}.
p=odds+1odds.
p
=
1
1
+
e
x
p
(
−
l
o
g
−
o
d
d
s
)
p = \frac{1}{1 + \rm exp(-log-odds)}
p=1+exp(−log−odds)1
这显示了我们如何通过逻辑回归模型计算从log-odds到odds,再到类别1的概率的过程。
3. 最大似然估计
和线性回归模型一样,我们希望最大化:
P
(
X
;
θ
)
P(X; \theta)
P(X;θ)
m
a
x
∑
l
o
g
P
(
y
i
∣
x
i
;
h
)
。
\rm max \sum log \ P(y_i | x_i; h)。
max∑log P(yi∣xi;h)。
我们将模型假设h替换为逻辑回归模型。
m
i
n
∑
−
(
l
o
g
(
y
i
^
)
×
y
i
+
l
o
g
(
1
−
y
i
^
×
(
1
−
y
i
)
)
\rm min \sum -(log(\hat{y_i}) \times y_i + log(1-\hat{y_i} \times (1-y_i))
min∑−(log(yi^)×yi+log(1−yi^×(1−yi))