机器学习算法之:指数族分布与广义线性模型

参考NG的lecture note1 part3 
本文将首先简单介绍指数族分布,然后介绍一下广义线性模型(generalized linear model, GLM), 最后解释了为什么逻辑回归(logistic regression, LR) 是广义线性模型的一种。

指数族分布

指数族分布 (The exponential family distribution),区别于指数分布(exponential distribution)。在概率统计中,若某概率分布满足下式,我们就称之属于指数族分布。 

p(y;η)=b(y)exp(ηTT(y)a(η))p(y;η)=b(y)exp⁡(ηTT(y)−a(η))

其中ηη是natural parameter, T(y)T(y)是充分统计量, expa(η))exp−a(η))是起到归一化作用。 确定了T,a,bT,a,b,我们就可以确定某个参数为ηη的指数族分布. 
统计中很多熟悉的概率分布都是指数族分布的特定形式,如伯努利分布,高斯分布,多项分布(multionmal), 泊松分布等。下面介绍其中的伯努利分布和高斯分布。

  • 伯努利分布 
    p(y;ϕ)=ϕy(1ϕ)1y=exp[ylogϕ+(1y)log(1ϕ)]=exp[ylogϕ1ϕ+log(1ϕ)]p(y;ϕ)=ϕy(1−ϕ)1−y=exp[ylog⁡ϕ+(1−y)log⁡(1−ϕ)]=exp[ylog⁡ϕ1−ϕ+log(1−ϕ)]

    把伯努利分布可以写成指数族分布的形式,且 
    T(y)=yη=logϕ1ϕa(η)=log(1ϕ)=log(1+eη)b(y)=1T(y)=yη=log⁡ϕ1−ϕa(η)=−log⁡(1−ϕ)=log⁡(1+eη)b(y)=1

    同时我们可以看到ϕ=11+eηϕ=11+e−η, 居然是logistic sigmoid的形式,后面在讨论LR是广义线性模型时,也会用到。

高斯分布

高斯分布也可以写为指数族分布的形式如下: 

p(y;μ)=12πexp(12(yμ)2)=12πexp(12y2)exp(μy12μ2)p(y;μ)=12πexp⁡(−12(y−μ)2)=12πexp⁡(−12y2)exp⁡(μy−12μ2)

我们假设方差为1,当然不为1的时候也是可以推导的。上述我们就把高斯分布写为了指数族分布的形式,对应的 

η=μT(y)=ya(η)=μ2/2=η2/2b(y)=12πexp(12y2)η=μT(y)=ya(η)=μ2/2=η2/2b(y)=12πexp⁡(−12y2)

广义线性模型 (Generalized linear model, GLM)

本节将讲述广义线性模型的概念,以及LR,最小二乘为何也属于广义线性模型。

考虑一个分类或回归问题,我们就是想预测某个随机变量yyyy 是某些特征(feature)xx的函数。为了推导广义线性模式,我们必须做出如下三个假设

  1. p(y|x;θ)p(y|x;θ) 服从指数族分布
  2. 给了xx, 我们的目的是为了预测T(y)的在条件xx下的期望。一般情况T(y)=yT(y)=y, 这就意味着我们希望预测h(x)=E[y|x]h(x)=E[y|x]
  3. 参数ηη和输入xx 是线性相关的:η=θTxη=θTx

在这三个假设(也可以理解为一种设计)的前提下,我们可以推导出一系列学习算法,称之为广义线性模型(GLM)。下面我们可以推导出一系列算法,称之为广义线性模型GLM. 下面举两个例子:

最小二乘法

假设p(y|x;θ)N(μ,σ2)p(y|x;θ)∼N(μ,σ2)uu 可能依赖于xx,那么 

hθ(x)=E[y|x;θ]=μ=η=θTxhθ(x)=E[y|x;θ]=μ=η=θTx

第一行因为假设2,第二行因为高斯分布的特点,第三行根据上面高斯分布为指数族分布的推导,第四行因为假设3

逻辑回归 LR

考虑LR二分类问题,y0,1y∈0,1, 因为是二分类问题,我们很自然的选择p(y|x;θ)p(y|x;θ)~Bernoulli(ϕϕ),即服从伯努利分布。那么 

hθ(x)=E[y|x;θ]=ϕ=11+eη=11+eθTxhθ(x)=E[y|x;θ]=ϕ=11+e−η=11+e−θTx

第一行因为假设2,第二行因为伯努利分布的性质,第三行因为伯努利分布为指数族分布时的推导,第四行因为假设3.

所以我们终于知道逻辑回归LR的P(y=1|x)=11+eθTxP(y=1|x)=11+e−θTx从何而来了。它即是在伯努利分布和广义线性模型的假设下推导而来,逻辑回归也自然是一种广义线性模型。

参考NG的lecture note1 part3 
本文将首先简单介绍指数族分布,然后介绍一下广义线性模型(generalized linear model, GLM), 最后解释了为什么逻辑回归(logistic regression, LR) 是广义线性模型的一种。

指数族分布

指数族分布 (The exponential family distribution),区别于指数分布(exponential distribution)。在概率统计中,若某概率分布满足下式,我们就称之属于指数族分布。 

p(y;η)=b(y)exp(ηTT(y)a(η))p(y;η)=b(y)exp⁡(ηTT(y)−a(η))

其中ηη是natural parameter, T(y)T(y)是充分统计量, expa(η))exp−a(η))是起到归一化作用。 确定了T,a,bT,a,b,我们就可以确定某个参数为ηη的指数族分布. 
统计中很多熟悉的概率分布都是指数族分布的特定形式,如伯努利分布,高斯分布,多项分布(multionmal), 泊松分布等。下面介绍其中的伯努利分布和高斯分布。

  • 伯努利分布 
    p(y;ϕ)=ϕy(1ϕ)1y=exp[ylogϕ+(1y)log(1ϕ)]=exp[ylogϕ1ϕ+log(1ϕ)]p(y;ϕ)=ϕy(1−ϕ)1−y=exp[ylog⁡ϕ+(1−y)log⁡(1−ϕ)]=exp[ylog⁡ϕ1−ϕ+log(1−ϕ)]

    把伯努利分布可以写成指数族分布的形式,且 
    T(y)=yη=logϕ1ϕa(η)=log(1ϕ)=log(1+eη)b(y)=1T(y)=yη=log⁡ϕ1−ϕa(η)=−log⁡(1−ϕ)=log⁡(1+eη)b(y)=1

    同时我们可以看到ϕ=11+eηϕ=11+e−η, 居然是logistic sigmoid的形式,后面在讨论LR是广义线性模型时,也会用到。

高斯分布

高斯分布也可以写为指数族分布的形式如下: 

p(y;μ)=12πexp(12(yμ)2)=12πexp(12y2)exp(μy12μ2)p(y;μ)=12πexp⁡(−12(y−μ)2)=12πexp⁡(−12y2)exp⁡(μy−12μ2)

我们假设方差为1,当然不为1的时候也是可以推导的。上述我们就把高斯分布写为了指数族分布的形式,对应的 

η=μT(y)=ya(η)=μ2/2=η2/2b(y)=12πexp(12y2)η=μT(y)=ya(η)=μ2/2=η2/2b(y)=12πexp⁡(−12y2)

广义线性模型 (Generalized linear model, GLM)

本节将讲述广义线性模型的概念,以及LR,最小二乘为何也属于广义线性模型。

考虑一个分类或回归问题,我们就是想预测某个随机变量yyyy 是某些特征(feature)xx的函数。为了推导广义线性模式,我们必须做出如下三个假设

  1. p(y|x;θ)p(y|x;θ) 服从指数族分布
  2. 给了xx, 我们的目的是为了预测T(y)的在条件xx下的期望。一般情况T(y)=yT(y)=y, 这就意味着我们希望预测h(x)=E[y|x]h(x)=E[y|x]
  3. 参数ηη和输入xx 是线性相关的:η=θTxη=θTx

在这三个假设(也可以理解为一种设计)的前提下,我们可以推导出一系列学习算法,称之为广义线性模型(GLM)。下面我们可以推导出一系列算法,称之为广义线性模型GLM. 下面举两个例子:

最小二乘法

假设p(y|x;θ)N(μ,σ2)p(y|x;θ)∼N(μ,σ2)uu 可能依赖于xx,那么 

hθ(x)=E[y|x;θ]=μ=η=θTxhθ(x)=E[y|x;θ]=μ=η=θTx

第一行因为假设2,第二行因为高斯分布的特点,第三行根据上面高斯分布为指数族分布的推导,第四行因为假设3

逻辑回归 LR

考虑LR二分类问题,y0,1y∈0,1, 因为是二分类问题,我们很自然的选择p(y|x;θ)p(y|x;θ)~Bernoulli(ϕϕ),即服从伯努利分布。那么 

hθ(x)=E[y|x;θ]=ϕ=11+eη=11+eθTxhθ(x)=E[y|x;θ]=ϕ=11+e−η=11+e−θTx

第一行因为假设2,第二行因为伯努利分布的性质,第三行因为伯努利分布为指数族分布时的推导,第四行因为假设3.

所以我们终于知道逻辑回归LR的P(y=1|x)=11+eθTx

P(y=1|x)=11+e−θTx从何而来了。它即是在伯努利分布和广义线性模型的假设下推导而来,逻辑回归也自然是一种广义线性模型。


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值