从「一」到「无穷大」:广义线性模型 (GLM)
本文基于「指数分布族」的理论,以「Logistic回归」为例,讲解推广线性模型的过程。
如果你还不了解指数分布族,请看:指数分布族
本文的md源码地址:AnBlogs
文章目录
Logistc回归举个例子
先讲解Logistc预测使用的概率模型「伯努利分布」,并把它写成「指数族分布」的形式,再看看预测是如何操作的。
如果你还不了解Logistic回归,请看:Logistic回归
原始概率模型
「Logistic回归」解决一个二分类问题,二分类问题就是求对象分到某个类的概率,用伯努利分布描述。
p ( y ∣ μ ) = μ y ( 1 − μ ) 1 − y p(y|\mu)=\mu^{y}(1-\mu)^{1-y} p(y∣μ)=μy(1−μ)1−y
以上形式就是在说 p ( y = 1 ∣ μ ) = μ p(y=1|\mu)=\mu p(y=1∣μ)=μ,只是把 y = 0 , y = 1 y=0,y=1 y=0,y=1的情况融合在一起。
这里需要使用一点术语, μ \mu μ称为均值参数,意在它表达了分布的均值,或者可以直接叫做参数。
指数族分布形式 (Exponential Family)
伯努利分布写成指数族分布形式如下:
p ( y ∣ μ ) = ( 1 − μ ) exp ( y ln μ 1 − μ ) , 1 Z = 1 − μ , ϕ ( y ) = y , θ = ln μ 1 − μ p(y|\mu)=(1-\mu)\exp(y\ln\frac{\mu}{1-\mu}),\frac{1}{Z}=1-\mu,\phi(y)=y,\theta=\ln\frac{\mu}{1-\mu} p(y∣μ)=(1−μ)exp(yln1−μμ),Z1=1−μ,ϕ(y)=y,θ=ln1−μμ
如果你对这个结论不了解,请看:指数分布族
这里给出了 μ → θ \mu\rightarrow\theta μ→θ的映射,称为 Ψ \Psi Ψ,也就是 θ = Ψ ( μ ) \theta=\Psi(\mu) θ=Ψ(μ)。这个映射是从原始参数到自然参数的映射。这里说「原始参数」是为了和「自然参数」相区分。
这个映射是可逆的,是Sigmoid函数:
μ = 1 1 + e − θ = A ′ ( θ ) , Ψ − 1 ( θ ) = s i g m ( θ ) \mu=\frac{1}{1+e^{-\theta}}=A'(\theta),\Psi^{-1}(\theta)=sigm(\theta) μ=1+e−θ1=A′(θ),Ψ−1(θ)=sigm(θ)
最终的指数族分布形式为:
p ( y ∣ μ ) = exp ( y θ − A ( θ ) ) , A ( θ ) = ln ( 1 + e θ ) p(y|\mu)=\exp(y\theta-A(\theta)),A(\theta)=\ln(1+e^\theta) p(y∣μ)=exp(yθ−A(θ)),A(θ)=ln(1+eθ)
和线性组合连接 (Link Function)
我们通常通过 w T x w^Tx wTx的值估计目标 y y y分布的参数,进而求得分布。
比如在线性回归中, w T x w^Tx wTx直接确定了目标 y y y的均值,把方差当作常数,则目标 y y y的分布就确定了。在Logistic回归中, w T x w^Tx wTx的值带入Sigmoid函数,得到分布的参数 μ \mu