2.1 对数几率回归模型
指数族分布是一类分布的总称,该类分布的分布律(概率密度函数)的一般形式如下:
p
(
y
;
η
)
=
b
(
y
)
exp
(
η
T
T
(
y
)
−
a
(
η
)
)
=
b
(
y
)
exp
[
η
(
θ
)
⋅
T
(
y
)
−
A
(
θ
)
]
=
b
(
y
)
exp
(
η
(
θ
)
⋅
T
(
y
)
−
A
(
θ
)
)
=
b
(
y
)
exp
(
η
(
θ
)
⋅
T
(
y
)
−
A
(
θ
)
)
p(y;\eta) = b(y)\exp(\eta^{T}T(y)-a(\eta)) \\ = b(y) \exp [\eta(\theta) \cdot T(y)-A(\theta)]\\ = b(y) \exp (\boldsymbol{\eta}(\boldsymbol{\theta}) \cdot \mathbf{T}(y)-A(\boldsymbol{\theta}))\\ = b(\mathbf{y}) \exp (\boldsymbol{\eta}(\boldsymbol{\theta}) \cdot \mathbf{T}(\mathbf{y})-A(\boldsymbol{\theta}))
p(y;η)=b(y)exp(ηTT(y)−a(η))=b(y)exp[η(θ)⋅T(y)−A(θ)]=b(y)exp(η(θ)⋅T(y)−A(θ))=b(y)exp(η(θ)⋅T(y)−A(θ))
其中,
η
\eta
η称为该分布的自然参数;
T
(
y
)
T(y)
T(y)为充分统计量,视具体的分布情况而定, 通常是等于随机变量y本身;
a
(
y
)
a(y)
a(y)是配分函数;
b
(
y
)
b(y)
b(y)是关于随机变量
y
y
y的函数。常见的伯努利分布和正态分布均属于指数族分布。【
η
\eta
η的T不是充分统计量的T,是向量转置的意思】上面不同行对应
θ
\theta
θ和
y
y
y分别是向量和标量的情况。
首先证明伯努利分布属于指数族分布。
伯努利分布
p
(
y
)
=
ϕ
y
(
1
−
ϕ
)
1
−
y
p(y) = \phi^{y}(1-\phi)^{1-y}
p(y)=ϕy(1−ϕ)1−y
其中
y
∈
{
0
,
1
}
y \in\{0,1\}
y∈{0,1},
p
(
y
=
1
)
=
ϕ
p(y=1)=\phi
p(y=1)=ϕ.对上式做恒等变形:
p
(
y
)
=
ϕ
y
(
1
−
ϕ
)
1
−
y
=
exp
(
ln
(
ϕ
y
(
1
−
ϕ
)
1
−
y
)
)
=
exp
(
ln
ϕ
y
+
ln
(
1
−
ϕ
)
1
−
y
)
=
exp
(
y
ln
ϕ
+
(
1
−
y
)
ln
(
1
−
ϕ
)
)
=
exp
(
y
ln
ϕ
+
ln
(
1
−
ϕ
)
−
y
ln
(
1
−
ϕ
)
)
=
exp
(
y
(
ln
ϕ
−
ln
(
1
−
ϕ
)
)
+
ln
(
1
−
ϕ
)
)
=
exp
(
y
ln
(
ϕ
1
−
ϕ
)
+
ln
(
1
−
ϕ
)
)
\begin{aligned} p(y) &=\phi^{y}(1-\phi)^{1-y} \\ &=\exp \left(\ln \left(\phi^{y}(1-\phi)^{1-y}\right)\right) \\ &=\exp \left(\ln \phi^{y}+\ln (1-\phi)^{1-y}\right)\\ &=\exp (y \ln \phi+(1-y) \ln (1-\phi)) \\ &=\exp (y \ln \phi+\ln (1-\phi)-y \ln (1-\phi)) \\ &=\exp (y(\ln \phi-\ln (1-\phi))+\ln (1-\phi)) \\ &=\exp \left(y \ln \left(\frac{\phi}{1-\phi}\right)+\ln (1-\phi)\right) \end{aligned}
p(y)=ϕy(1−ϕ)1−y=exp(ln(ϕy(1−ϕ)1−y))=exp(lnϕy+ln(1−ϕ)1−y)=exp(ylnϕ+(1−y)ln(1−ϕ))=exp(ylnϕ+ln(1−ϕ)−yln(1−ϕ))=exp(y(lnϕ−ln(1−ϕ))+ln(1−ϕ))=exp(yln(1−ϕϕ)+ln(1−ϕ))
对比指数族分布的一般形式,我们有
b
(
y
)
=
1
η
=
ln
(
ϕ
1
−
ϕ
)
T
(
y
)
=
y
a
(
η
)
=
−
ln
(
1
−
ϕ
)
=
ln
(
1
+
e
η
)
\begin{aligned} b(y) &=1 \\ \eta &=\ln \left(\frac{\phi}{1-\phi}\right) \\ T(y) &=y \\ a(\eta) &=-\ln (1-\phi)=\ln \left(1+e^{\eta}\right) \end{aligned}
b(y)ηT(y)a(η)=1=ln(1−ϕϕ)=y=−ln(1−ϕ)=ln(1+eη)
第二步,我么先给广义线性模型提出三条假设:
- 在给定 x x x的条件下,假设随机变量 y y y服从某个指数族分布
- 在给定 x x x的条件下,我们的目标是得到一个模型 h ( x ) h(x) h(x)能预测出 T ( y ) T(y) T(y)的期望值。
- 假设该指数族分布的自然参数 η \eta η和 x x x呈线性关系,即 η = w T x \eta=w^{T}x η=wTx
因为对数几率回归是在对一个二分类问题进行建模,并且假设被建模的随机变量取值为0或者1,我们可以假设 y y y服从伯努利分布。因此如果要构建一个线性模型来预测在给定 x x x的条件下 y y y的取值的话,可以考虑使用广义线性模型来进行建模。
第三步,构建对数几率回归。已知
y
y
y服从伯努利分布,而伯努利分布属于指数族分布,所以满足广义线性模型的第一条假设,接着根据第二条假设我们可以推得模型
h
(
x
)
h(x)
h(x)的表达式为
h
(
x
)
=
E
[
T
(
y
∣
x
)
]
h(\boldsymbol{x})=E[T(y \mid \boldsymbol{x})]
h(x)=E[T(y∣x)]
由于伯努利分布的
T
(
y
∣
x
)
=
y
∣
x
T(y \mid \boldsymbol{x})=y \mid \boldsymbol{x}
T(y∣x)=y∣x,所以:
h
(
x
)
=
E
[
y
∣
x
]
=
1
×
p
(
y
=
1
∣
x
)
+
0
×
p
(
y
=
0
∣
x
)
=
p
(
y
=
1
∣
x
)
=
ϕ
h(\boldsymbol{x})=E[y \mid \boldsymbol{x}] = 1 \times p(y=1 \mid x)+0 \times p(y=0 \mid x)=p(y=1 \mid x)=\phi
h(x)=E[y∣x]=1×p(y=1∣x)+0×p(y=0∣x)=p(y=1∣x)=ϕ
所以:
h
(
x
)
=
ϕ
h(\boldsymbol{x})=\phi
h(x)=ϕ
在第一步中国我们有:
η
=
ln
(
ϕ
1
−
ϕ
)
e
η
=
ϕ
1
−
ϕ
e
−
η
=
1
−
ϕ
ϕ
e
−
η
=
1
ϕ
−
1
1
+
e
−
η
=
1
ϕ
1
1
+
e
η
=
ϕ
\begin{array}{l} \eta=\ln \left(\dfrac{\phi}{1-\phi}\right) \\ e^{\eta}=\dfrac{\phi}{1-\phi} \\ e^{-\eta}=\dfrac{1-\phi}{\phi} \\ e^{-\eta}=\dfrac{1}{\phi}-1 \\ 1+e^{-\eta}=\dfrac{1}{\phi} \\ \dfrac{1}{1+e^{\eta}} = \phi \end{array}
η=ln(1−ϕϕ)eη=1−ϕϕe−η=ϕ1−ϕe−η=ϕ1−11+e−η=ϕ11+eη1=ϕ
所以我们有:
h
(
x
)
=
ϕ
=
1
1
+
e
−
η
h(\boldsymbol{x})=\phi=\dfrac{1}{1+e^{-\eta}}
h(x)=ϕ=1+e−η1
根据第三条假设
η
=
w
T
x
\eta=\boldsymbol{w}^{T} \boldsymbol{x}
η=wTx,最终有
h
(
x
)
=
ϕ
=
1
1
+
e
−
w
T
x
=
p
(
y
=
1
∣
x
)
h(\boldsymbol{x})=\phi=\dfrac{1}{1+e^{-\boldsymbol{w}^{T} \boldsymbol{x}}}=p(y=1 \mid \boldsymbol{x})
h(x)=ϕ=1+e−wTx1=p(y=1∣x)
此即为对数几率回归模型。
2.2 极大似然估计
2.2.1 定义
设总体的概率密度函数(或者分布律)为
f
(
y
,
w
1
,
w
2
,
…
,
w
k
)
f\left(y, w_{1}, w_{2}, \ldots, w_{k}\right)
f(y,w1,w2,…,wk),
y
1
,
y
2
,
…
,
y
m
y_{1}, y_{2}, \ldots, y_{m}
y1,y2,…,ym是从该总体中抽出的样本。因为
y
1
,
y
2
,
…
,
y
m
y_{1}, y_{2}, \ldots, y_{m}
y1,y2,…,ym相互独立且同分布, 于是他们的联合概率密度函数(或联合概率)为
L
(
y
1
,
y
2
,
…
,
y
m
;
w
1
,
w
2
,
…
,
w
k
)
=
∏
i
=
1
m
f
(
y
i
,
w
1
,
w
2
,
…
,
w
k
)
L\left(y_{1}, y_{2}, \ldots, y_{m} ; w_{1}, w_{2}, \ldots, w_{k}\right)=\prod_{i=1}^{m} f\left(y_{i}, w_{1}, w_{2}, \ldots, w_{k}\right)
L(y1,y2,…,ym;w1,w2,…,wk)=i=1∏mf(yi,w1,w2,…,wk)
其中,
w
1
,
w
2
,
…
,
w
k
w_{1}, w_{2}, \ldots, w_{k}
w1,w2,…,wk被看作固定但未知的参数。当我们已经观测到一组样本观测值
y
1
,
y
2
,
…
,
y
m
y_{1}, y_{2}, \ldots, y_{m}
y1,y2,…,ym时,要去估计未知参数,一种直观的想法就是,那一组参数值使得现在的样本观测值出现的概率最大,哪一组参数可能就是真正的参数,我们就用它作为参数的估计值,这就是极大似然估计。【隶属于概率主义学派】
2.2.2 求解方法
通常记
L
(
y
1
,
y
2
,
…
,
y
m
;
w
1
,
w
2
,
…
,
w
k
)
=
L
(
w
)
L\left(y_{1}, y_{2}, \ldots, y_{m} ; w_{1}, w_{2}, \ldots, w_{k}\right)=L(\boldsymbol{w})
L(y1,y2,…,ym;w1,w2,…,wk)=L(w),并称其为似然函数。于是求
w
\boldsymbol{w}
w的极大似然估计就转化为求
L
(
w
)
L(\boldsymbol{w})
L(w)的最大值点。由于对数函数是单调递增函数,所以
ln
L
(
w
)
=
ln
(
∏
i
=
1
m
f
(
y
i
,
w
1
,
w
2
,
…
,
w
k
)
)
=
∑
i
=
1
m
ln
f
(
y
i
,
w
1
,
w
2
,
…
,
w
k
)
\ln L(\boldsymbol{w})=\ln \left(\prod_{i=1}^{m} f\left(y_{i}, w_{1}, w_{2}, \ldots, w_{k}\right)\right)=\sum_{i=1}^{m} \ln f\left(y_{i}, w_{1}, w_{2}, \ldots, w_{k}\right)
lnL(w)=ln(i=1∏mf(yi,w1,w2,…,wk))=i=1∑mlnf(yi,w1,w2,…,wk)
与
L
(
w
)
L(\boldsymbol{w})
L(w)有相同的最大值点。如果求对数的最大值点比较简单,我们就将求
L
L
L的最大值点转化为求
ln
L
\ln L
lnL的最大值点,通常称
ln
L
(
w
)
\ln L(\boldsymbol{w})
lnL(w) 为对数似然函数。
可以开始求对数几率回归的极大似然估计
已知:
p
(
y
=
1
∣
x
)
=
e
w
T
x
+
b
1
+
e
w
T
x
+
b
p
(
y
=
0
∣
x
)
=
1
1
+
e
w
T
x
+
b
\begin{array}{l} p(y=1 \mid \boldsymbol{x})=\dfrac{e^{\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}+b}}{1+e^{\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}+b}} \\ p(y=0 \mid \boldsymbol{x})=\dfrac{1}{1+e^{\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}+b}} \end{array}
p(y=1∣x)=1+ewTx+bewTx+bp(y=0∣x)=1+ewTx+b1
【
p
(
y
=
0
∣
x
)
=
1
−
p
(
y
=
1
∣
x
)
p(y=0 \mid \boldsymbol{x}) = 1- p(y=1 \mid \boldsymbol{x})
p(y=0∣x)=1−p(y=1∣x)】
令
β
=
(
w
;
b
)
,
x
^
=
(
x
;
1
)
\boldsymbol{\beta}=(\boldsymbol{w} ; b), \hat{\boldsymbol{x}}=(\boldsymbol{x} ; 1)
β=(w;b),x^=(x;1), 则上式可以化简为
p
(
y
=
1
∣
x
)
=
e
β
T
x
^
1
+
e
β
T
x
^
=
p
1
(
x
^
;
β
)
p
(
y
=
0
∣
x
)
=
1
1
+
e
β
T
x
^
=
p
0
(
x
^
;
β
)
\begin{array}{l} p(y=1 \mid \boldsymbol{x})=\dfrac{e^{\boldsymbol{\beta}^{T} \hat{\boldsymbol{x}}}}{1+e^{\boldsymbol{\beta}^{T} \hat{\boldsymbol{x}}}}=p_{1}(\hat{\boldsymbol{x}} ; \boldsymbol{\beta}) \\ p(y=0 \mid \boldsymbol{x})=\dfrac{1}{1+e^{\boldsymbol{\beta}^{T} \hat{\boldsymbol{x}}}}=p_{0}(\hat{\boldsymbol{x}} ; \boldsymbol{\beta}) \end{array}
p(y=1∣x)=1+eβTx^eβTx^=p1(x^;β)p(y=0∣x)=1+eβTx^1=p0(x^;β)
使用个小技巧就可以得到随机变量y的分布律表达式【0-1分布律的表达式】
p
(
y
∣
x
;
w
,
b
)
=
y
⋅
p
1
(
x
^
;
β
)
+
(
1
−
y
)
⋅
p
0
(
x
^
;
β
)
p
(
y
∣
x
;
w
,
b
)
=
[
p
1
(
x
^
;
β
)
]
y
[
p
0
(
x
^
;
β
)
]
1
−
y
p(y \mid \boldsymbol{x} ; \boldsymbol{w}, b)=y \cdot p_{1}(\hat{\boldsymbol{x} } ; \boldsymbol{\beta})+(1-y) \cdot p_{0}(\hat{\boldsymbol{x} } ; \boldsymbol{\beta})\\ p(y \mid \boldsymbol{x} ; \boldsymbol{w}, b)=\left[p_{1}(\hat{\boldsymbol{x}} ; \boldsymbol{\beta})\right]^{y}\left[p_{0}(\hat{\boldsymbol{x}} ; \boldsymbol{\beta})\right]^{1-y}
p(y∣x;w,b)=y⋅p1(x^;β)+(1−y)⋅p0(x^;β)p(y∣x;w,b)=[p1(x^;β)]y[p0(x^;β)]1−y
由于此时的y是离散型,所以对数似然函数中的概率密度函数直接可以换成分布律
ℓ
(
w
,
b
)
:
=
ln
L
(
w
,
b
)
=
∑
i
=
1
m
ln
p
(
y
i
∣
x
i
;
w
,
b
)
⇒
ℓ
(
β
)
=
∑
i
=
1
m
ln
(
y
i
p
1
(
x
^
i
;
β
)
+
(
1
−
y
i
)
p
0
(
x
^
i
;
β
)
)
\ell(\boldsymbol{w}, b):=\ln L(\boldsymbol{w}, b)=\sum_{i=1}^{m} \ln p\left(y_{i} \mid \boldsymbol{x}_{i} ; \boldsymbol{w}, b\right)\\ \Rightarrow \ell(\boldsymbol{\beta})=\sum_{i=1}^{m} \ln \left(y_{i} p_{1}\left(\hat{\boldsymbol{x}}_{i} ; \boldsymbol{\beta}\right)+\left(1-y_{i}\right) p_{0}\left(\hat{\boldsymbol{x}}_{i} ; \boldsymbol{\beta}\right)\right)
ℓ(w,b):=lnL(w,b)=i=1∑mlnp(yi∣xi;w,b)⇒ℓ(β)=i=1∑mln(yip1(x^i;β)+(1−yi)p0(x^i;β))
将
p
1
,
p
0
p_1, p_0
p1,p0代入
ℓ
(
β
)
=
∑
i
=
1
m
ln
(
y
i
e
β
T
x
^
i
1
+
e
β
T
x
^
i
+
1
−
y
i
1
+
e
β
T
x
^
i
)
=
∑
i
=
1
m
ln
(
y
i
e
β
T
x
^
i
+
1
−
y
i
1
+
e
β
T
x
^
i
)
=
∑
i
=
1
m
(
ln
(
y
i
e
β
T
x
^
i
+
1
−
y
i
)
−
ln
(
1
+
e
β
T
x
^
i
)
)
\ell(\boldsymbol{\beta})=\sum_{i=1}^{m} \ln \left(\dfrac{y_{i} e^{\boldsymbol{\beta}^{T} \hat{\boldsymbol{x}}_{i}}}{1+e^{\boldsymbol{\beta}^{T} \hat{\boldsymbol{x}}_{i}}}+\frac{1-y_{i}}{1+e^{\boldsymbol{\beta}^{T} \hat{\boldsymbol{x}}_{i}}}\right)\\ =\sum_{i=1}^{m} \ln \left(\dfrac{y_{i} e^{\boldsymbol{\beta}^{T} \hat{\boldsymbol{x}}_{i}}+1-y_{i}}{1+e^{\boldsymbol{\beta}^{T} \hat{\boldsymbol{x}}_{i}}}\right)\\ =\sum_{i=1}^{m}\left(\ln \left(y_{i} e^{\boldsymbol{\beta}^{T} \hat{\boldsymbol{x}}_{i}}+1-y_{i}\right)-\ln \left(1+e^{\boldsymbol{\beta}^{T} \hat{\boldsymbol{x}}_{i}}\right)\right)
ℓ(β)=i=1∑mln(1+eβTx^iyieβTx^i+1+eβTx^i1−yi)=i=1∑mln(1+eβTx^iyieβTx^i+1−yi)=i=1∑m(ln(yieβTx^i+1−yi)−ln(1+eβTx^i))
当
y
i
=
0
y_i=0
yi=0时,
ℓ
(
β
)
=
∑
i
=
1
m
(
ln
(
0
⋅
e
β
T
x
^
i
+
1
−
0
)
−
ln
(
1
+
e
β
T
x
i
)
)
=
∑
i
=
1
m
(
ln
1
−
ln
(
1
+
e
β
T
x
i
)
)
=
∑
i
=
1
m
(
−
ln
(
1
+
ϵ
β
T
x
i
)
)
\ell(\boldsymbol{\beta})=\sum_{i=1}^{m}\left(\ln \left(0 \cdot e^{\boldsymbol{\beta}^{T} \hat{x}_{i}}+1-0\right)-\ln \left(1+e^{\boldsymbol{\beta}^{T} \boldsymbol{x}_{i}}\right)\right)\\ =\sum_{i=1}^{m}\left(\ln 1-\ln \left(1+e^{\boldsymbol{\beta}^{T} \boldsymbol{x}_{i}}\right)\right)=\sum_{i=1}^{m}\left(-\ln \left(1+\epsilon^{\boldsymbol{\beta}^{T} \boldsymbol{x}_{i}}\right)\right)
ℓ(β)=i=1∑m(ln(0⋅eβTx^i+1−0)−ln(1+eβTxi))=i=1∑m(ln1−ln(1+eβTxi))=i=1∑m(−ln(1+ϵβTxi))
当
y
i
=
1
y_i=1
yi=1时,
ℓ
(
β
)
=
∑
i
=
1
m
(
ln
(
1
⋅
e
β
T
x
^
i
+
1
−
1
)
−
ln
(
1
+
ϵ
β
T
x
^
i
)
)
=
∑
i
=
1
m
(
ln
e
β
T
x
i
−
ln
(
1
+
e
β
T
x
˙
i
)
)
=
∑
i
=
1
m
(
β
T
x
^
i
−
ln
(
1
+
e
β
T
x
^
i
)
)
\ell(\boldsymbol{\beta})=\sum_{i=1}^{m}\left(\ln \left(1 \cdot e^{\boldsymbol{\beta}^{T} \hat{x}_{i}}+1-1\right)-\ln \left(1+\epsilon^{\boldsymbol{\beta}^{T} \hat{x}_{i}}\right)\right)\\ =\sum_{i=1}^{m}\left(\ln e^{\boldsymbol{\beta}^{T} \boldsymbol{x}_{i}}-\ln \left(1+e^{\boldsymbol{\beta}^{T} \dot{x}_{i}}\right)\right)=\sum_{i=1}^{m}\left(\boldsymbol{\beta}^{T} \hat{\boldsymbol{x}}_{i}-\ln \left(1+e^{\boldsymbol{\beta}^{T} \hat{x}_{i}}\right)\right)
ℓ(β)=i=1∑m(ln(1⋅eβTx^i+1−1)−ln(1+ϵβTx^i))=i=1∑m(lneβTxi−ln(1+eβTx˙i))=i=1∑m(βTx^i−ln(1+eβTx^i))
因此可以吧对数似然函数简化为:
ℓ
(
β
)
=
∑
i
=
1
m
(
y
i
β
T
x
^
i
−
ln
(
1
+
e
β
T
x
^
i
)
)
\ell(\boldsymbol{\beta})=\sum_{i=1}^{m}\left(y_{i} \boldsymbol{\beta}^{T} \hat{\boldsymbol{x}}_{i}-\ln \left(1+e^{\boldsymbol{\beta}^{T} \hat{\boldsymbol{x}}_{i}}\right)\right)
ℓ(β)=i=1∑m(yiβTx^i−ln(1+eβTx^i))
最大化这个表达式等价于最小化其负值:
ℓ
(
β
)
=
∑
i
=
1
m
(
−
y
i
β
T
x
^
i
+
ln
(
1
+
e
β
T
x
^
i
)
)
\ell(\boldsymbol{\beta})=\sum_{i=1}^{m}\left(-y_{i} \boldsymbol{\beta}^{T} \hat{\boldsymbol{x}}_{i}+\ln \left(1+e^{\boldsymbol{\beta}^{T} \hat{\boldsymbol{x}}_{i}}\right)\right)
ℓ(β)=i=1∑m(−yiβTx^i+ln(1+eβTx^i))
这就是西瓜书page59的式(3.27)
如果用另外一个分布律表达式
p
(
y
∣
x
;
w
,
b
)
=
[
p
1
(
x
^
;
β
)
]
y
[
p
0
(
x
^
;
β
)
]
1
−
y
p(y \mid \boldsymbol{x} ; \boldsymbol{w}, b)=\left[p_{1}(\hat{\boldsymbol{x}} ; \boldsymbol{\beta})\right]^{y}\left[p_{0}(\hat{\boldsymbol{x}} ; \boldsymbol{\beta})\right]^{1-y}
p(y∣x;w,b)=[p1(x^;β)]y[p0(x^;β)]1−y,对数似然函数为
ℓ
(
β
)
=
∑
i
=
1
m
ln
(
[
p
1
(
x
^
i
;
β
)
]
y
i
[
p
0
(
x
^
i
;
β
)
]
1
−
y
i
)
=
∑
i
=
1
m
[
ln
(
[
p
1
(
x
^
i
;
β
)
]
y
i
)
+
ln
(
[
p
0
(
x
^
i
;
β
)
]
1
−
y
i
)
]
=
∑
i
=
1
m
[
y
i
ln
(
p
1
(
x
^
i
;
β
)
)
+
(
1
−
y
i
)
ln
(
p
0
(
x
^
i
;
β
)
)
]
=
∑
i
=
1
m
{
y
i
[
ln
(
p
1
(
x
^
i
;
β
)
)
−
ln
(
p
0
(
x
^
i
;
β
)
)
]
+
ln
(
p
0
(
x
^
i
;
β
)
)
}
=
∑
i
=
1
m
[
y
i
ln
(
p
1
(
x
^
i
;
β
)
p
0
(
x
^
i
;
β
)
)
+
ln
(
p
0
(
x
^
i
;
β
)
)
]
=
∑
i
=
1
m
[
y
i
ln
(
e
β
T
x
^
i
)
+
ln
(
1
1
+
e
β
T
x
^
i
)
]
=
∑
i
=
1
m
(
y
i
β
T
x
^
i
−
ln
(
1
+
e
β
T
x
^
i
)
)
\begin{aligned} \ell(\boldsymbol{\beta}) &=\sum_{i=1}^{m} \ln \left(\left[p_{1}\left(\hat{\boldsymbol{x}}_{i} ; \boldsymbol{\beta}\right)\right]^{y_{i}}\left[p_{0}\left(\hat{\boldsymbol{x}}_{i} ; \boldsymbol{\beta}\right)\right]^{1-y_{i}}\right) \\ &=\sum_{i=1}^{m}\left[\ln \left(\left[p_{1}\left(\hat{\boldsymbol{x}}_{i} ; \boldsymbol{\beta}\right)\right]^{y_{i}}\right)+\ln \left(\left[p_{0}\left(\hat{\boldsymbol{x}}_{i} ; \boldsymbol{\beta}\right)\right]^{1-y_{i}}\right)\right] \\ &=\sum_{i=1}^{m}\left[y_{i} \ln \left(p_{1}\left(\hat{\boldsymbol{x}}_{i} ; \boldsymbol{\beta}\right)\right)+\left(1-y_{i}\right) \ln \left(p_{0}\left(\hat{\boldsymbol{x}}_{i} ; \boldsymbol{\beta}\right)\right)\right] \\ &=\sum_{i=1}^{m}\left\{y_{i}\left[\ln \left(p_{1}\left(\hat{\boldsymbol{x}}_{i} ; \boldsymbol{\beta}\right)\right)-\ln \left(p_{0}\left(\hat{\boldsymbol{x}}_{i} ; \boldsymbol{\beta}\right)\right)\right]+\ln \left(p_{0}\left(\hat{\boldsymbol{x}}_{i} ; \boldsymbol{\beta}\right)\right)\right\}\\ &=\sum_{i=1}^{m}\left[y_{i} \ln \left(\frac{p_{1}\left(\hat{\boldsymbol{x}}_{i} ; \boldsymbol{\beta}\right)}{p_{0}\left(\hat{\boldsymbol{x}}_{i} ; \boldsymbol{\beta}\right)}\right)+\ln \left(p_{0}\left(\hat{\boldsymbol{x}}_{i} ; \boldsymbol{\beta}\right)\right)\right]\\ &=\sum_{i=1}^{m}\left[y_{i} \ln \left(e^{\boldsymbol{\beta}^{T} \hat{\boldsymbol{x}}_{i}}\right)+\ln \left(\frac{1}{1+e^{\boldsymbol{\beta}^{T} \hat{\boldsymbol{x}}_{i}}}\right)\right]\\ &=\sum_{i=1}^{m}\left(y_{i} \boldsymbol{\beta}^{T} \hat{\boldsymbol{x}}_{i}-\ln \left(1+e^{\boldsymbol{\beta}^{T} \hat{\boldsymbol{x}}_{i}}\right)\right) \end{aligned}
ℓ(β)=i=1∑mln([p1(x^i;β)]yi[p0(x^i;β)]1−yi)=i=1∑m[ln([p1(x^i;β)]yi)+ln([p0(x^i;β)]1−yi)]=i=1∑m[yiln(p1(x^i;β))+(1−yi)ln(p0(x^i;β))]=i=1∑m{yi[ln(p1(x^i;β))−ln(p0(x^i;β))]+ln(p0(x^i;β))}=i=1∑m[yiln(p0(x^i;β)p1(x^i;β))+ln(p0(x^i;β))]=i=1∑m[yiln(eβTx^i)+ln(1+eβTx^i1)]=i=1∑m(yiβTx^i−ln(1+eβTx^i))
同样可以得到相同的结果。这就是对数几率回归的对数似然函数
2.2.3 数值求解极大似然函数
由于
ℓ
(
β
)
\ell(\boldsymbol{\beta})
ℓ(β)是关于
β
\boldsymbol{\beta}
β的高阶可导连续凸函数,通过经典数值优化算法入梯度下降和牛顿法可以求解。比如牛顿法
x
n
+
1
=
x
n
−
f
′
(
x
n
)
f
′
′
(
x
n
)
⇒
β
t
+
1
=
β
t
−
(
∂
2
ℓ
(
β
)
∂
β
∂
β
T
)
−
1
∂
ℓ
(
β
)
∂
β
x_{n+1}=x_{n}-\frac{f^{\prime}\left(x_{n}\right)}{f^{\prime\prime}\left(x_{n}\right)}\\ \Rightarrow \boldsymbol{\beta}^{t+1}=\boldsymbol{\beta}^{t}-\left(\frac{\partial^{2} \ell(\boldsymbol{\beta})}{\partial \boldsymbol{\beta} \partial \boldsymbol{\beta}^{\mathrm{T}}}\right)^{-1} \frac{\partial \ell(\boldsymbol{\beta})}{\partial \boldsymbol{\beta}}
xn+1=xn−f′′(xn)f′(xn)⇒βt+1=βt−(∂β∂βT∂2ℓ(β))−1∂β∂ℓ(β)