指数族和广义线性模型(The exponential family and Generalized Linear Models)

指数族的概率密度形如:


对所有的θ:


所以:


当T(x) =x,A(θ)是h(x)的Laplace变换的log形式。

下面我们给出常见的概率分布:


之后,我们转向我们熟悉的形式:


η被称为natural parameter或者canonical parameter,T (y)被称为sufficient statistic(a statistic

is a function of data,通常有T (y) = y),a(η)被称为lognormalizer,保证密度函数的积分为1。

1.我们将Bernoulli分布写成指数族的形式:


其中:可推出φ=1/(1 +e^- η),η的形式与logistic函数一致,因为logistic回归的前置概率是伯努利(Bernoulli.)分布

然后


2.接下来再考虑高斯分布(Gaussian),由于高斯分布的方差与我们最后对θ和h(x)的选择无关,为了简便,将方差设为1。

然后有


其中


3.多项式分布(Multinomial.)


其中


与Bernoulli同样的操作:


其中


4.泊松分布(Poisson.)

泊松分布是一个离散的分布,


其中


5单变量高斯分布(UnivariateGaussian),这次是完整的形式:


其中


在指数族分布里,a(η)函数其实是一种生成函数(generating function),可以派生出:


同时:


在Bernoulli分布中,,可以导出

通过引入指数族,我们可以导出广义线性模型(下文简称为GLM),首先GLM有三个形式化的假设:


对高斯分布来说,我们有µ = η,所以


对Logistic Regression来说,我们研究的是一个二类分类,所以y ∈ {0, 1}。由于y的取值特点,我们自然而然选择Bernoulli分布,我们有


如果y|x; θ ∼ Bernoulli(φ),则E[y|x; θ] =φ,我们有


我们可以得到,一旦我们认为y|x服从Bernoulli分布,我们就会得到Logistic Regression。


Bernoulli的正则响应函数为logistic函数

对于


g是链接函数,令我们有

对于形如以下的指数族


均值和方差满足


又有


我们可以给出常见分布的正则链接:



  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值