一. LR的数学形式
h θ ( x ) = 1 1 + e − θ T x h_\theta(x)=\frac{1}{1+e^{-\theta^Tx}} hθ(x)=1+e−θTx1
二. LR为什么用sigmoid函数
2.1 广义线性模型(GLM)
GLM是
y
y
y服从指数族分布的一般分布模型。
首先需要知道,线性回归和逻辑斯蒂回归都是GLM的特殊形式:
- 在线性回归中假设
y
y
y服从高斯分布:
y ∣ x ; θ ∼ N ( μ , σ 2 ) y|x; \theta \sim \N(\mu,\sigma^2) y∣x;θ∼N(μ,σ2) - 在逻辑斯蒂回归中假设
y
y
y服从伯努利分布:
y ∣ x ; θ ∼ B e r n o u l l i ( ϕ ) y|x; \theta \sim Bernoulli(\phi) y∣x;θ∼Bernoulli(ϕ) - 高斯分布和 B e r n o u l l i Bernoulli Bernoulli分布都属于指数分布族
2.2 指数族分布
在概率统计中,若某概率分布满足下式,我们称之为指数族分布:
p
(
y
;
η
)
=
b
(
y
)
e
(
η
T
T
(
y
)
−
a
(
η
)
)
p(y;\eta)=b(y)e^{(\eta^TT(y)-a(\eta))}
p(y;η)=b(y)e(ηTT(y)−a(η))
- η \eta η为自然参数
- T ( y ) T(y) T(y)为充分统计量(一般情况下 T ( y ) = y T(y)=y T(y)=y)
- a ( η ) a(\eta) a(η)是 log partition function , e − a ( η ) e^{-a(\eta)} e−a(η)起正规化常量的作用,保证 ∑ p ( y ; η ) = 1 \sum p(y;\eta)=1 ∑p(y;η)=1
- 也就是所 T , a , b T, a, b T,a,b 确定了一种分布, η \eta η是该分布的参数。
- 选择合适的 T , a , b T, a, b T,a,b ,可以得到高斯分布和 B e r n o u l l i Bernoulli Bernoulli分布
2.3 Bernoulli分布的指数分布族形式
p ( y ; ϕ ) = ϕ y ( 1 − ϕ ) 1 − y = e x p ( l n ( ϕ y ( 1 − ϕ ) 1 − y ) = e x p ( l n ϕ y ( 1 − ϕ ) y ( 1 − ϕ ) ) = e x p ( ( l n ( ϕ 1 − ϕ ) ) y + l n ( 1 − ϕ ) ) ⟹ η = l n ( ϕ 1 − ϕ ) ⟶ ϕ = 1 1 + e − η T ( y ) = y a ( η ) = − l n ( 1 − ϕ ) = l n ( 1 + e η ) b ( y ) = 1 \begin{aligned} p(y;\phi) & =\phi^{y}(1-\phi)^{1-y} \\ & = exp{(ln(\phi^{y}(1-\phi)^{1-y})} \\ & =exp({ln\frac{\phi^y}{(1-\phi)^y}(1-\phi)}) \\ & =exp((ln(\frac{\phi}{1-\phi}))y+ln(1-\phi)) \end{aligned} \Longrightarrow \begin{aligned} & \eta=ln(\frac{\phi}{1-\phi}) \longrightarrow \phi= \frac{1}{1+e^{-\eta}}\\ & T(y) =y \\ & a(\eta)=-ln(1-\phi)=ln(1+e^\eta)\\ & b(y)=1 \\ \end{aligned} p(y;ϕ)=ϕy(1−ϕ)1−y=exp(ln(ϕy(1−ϕ)1−y)=exp(ln(1−ϕ)yϕy(1−ϕ))=exp((ln(1−ϕϕ))y+ln(1−ϕ))⟹η=ln(1−ϕϕ)⟶ϕ=1+e−η1T(y)=ya(η)=−ln(1−ϕ)=ln(1+eη)b(y)=1
2.4 广义线性模型建模的基本假设
用广义线性模型建模的假设:
-
y
y
y的条件概率属于指数分布族
- y ∣ x ; θ ∼ Exponential Family y|x; \theta \sim \text{Exponential Family} y∣x;θ∼Exponential Family
- 给定
x
x
x,广义线性模型的目标是求解
T
(
y
)
∣
x
T(y)|x
T(y)∣x
- 在大多数情况下, T ( y ) = y T(y)=y T(y)=y,目标转变为求解 y ∣ x y|x y∣x
- 即,希望拟合函数 h θ ( x ) = E ( y ∣ x ) h_\theta(x)=E(y|x) hθ(x)=E(y∣x)
- 譬如,在逻辑回归中 h θ ( x ) = p ( y = 1 ∣ x , θ ) = 0 ⋅ p ( y = 0 ∣ x , θ ) + 1 ⋅ ( y = 1 ∣ x , θ ) = E [ y ∣ x ; θ ] h_\theta(x)=p(y=1|x,\theta)=0\cdot p(y=0|x,\theta)+1\cdotp(y=1|x,\theta)=E[y|x;\theta] hθ(x)=p(y=1∣x,θ)=0⋅p(y=0∣x,θ)+1⋅(y=1∣x,θ)=E[y∣x;θ]
-
η
\eta
η与
x
x
x是线性关系:
- η = θ T x \eta=\theta^Tx η=θTx
2.5 广义线性模型推导出LR
h θ ( x ) = E [ y ∣ x ; θ ] = ϕ = 1 1 + e − η = 1 1 + e − θ T x \begin{aligned} h_\theta(x) &=E[y|x;\theta] \\ & = \phi \\ & = \frac{1}{1+e^{-\eta}} \\ & =\frac{1}{1+e^{-\theta^Tx}} \end{aligned} hθ(x)=E[y∣x;θ]=ϕ=1+e−η1=1+e−θTx1