Andrew Ng机器学习课程笔记(四)之监督学习之Generalized Linear Models

Preface

主要内容:
Exponential Family(指数分布族)
Generalized Linear Models(广义线性模型)
Softmax Regression

Exponential Family

首先,我们回忆一下前面几节课所讲的内容,主要是通过高斯分布和伯努力分布进而推导出最小二乘法概率模型与逻辑回归概率模型。
yR:Gaussian(ϕ)LeastSquares(1) (1) y ∈ R : G a u s s i a n ( ϕ ) → L e a s t S q u a r e s
y{0,1}:Bernoulli(ϕ)LogisticRegression(2) (2) y ∈ { 0 , 1 } : B e r n o u l l i ( ϕ ) → L o g i s t i c R e g r e s s i o n
而,高斯分布和伯努力分布都可以写成指数分布族的形式:

p(yη)=b(y)exp(ηTT(y)a(η))(3) (3) p ( y ∣ η ) = b ( y ) exp ⁡ ( η T ⋅ T ( y ) − a ( η ) )

其中, η η 为自然参数(nature parameter), T(y) T ( y ) 是充分统计量(sufficient statistic),在一般情况下, T(y)=y T ( y ) = y 。当参数 a a b b T(y) T ( y ) 都固定以后,就定义了一个以 η η 为参数的函数族。

接下来以高斯分布和伯努力分布说明如何定义了一个以 η η 为参数的函数族:

1.Bernoulli Distribution

伯努利分布是对0,1分布的问题进行建模。所以,其概率密度函数如下:

Bernoulli(ϕ)=p(yη)={p(y=1y;φ)=φp(y=0y;φ)=1φ,y{0,1}(4) (4) B e r n o u l l i ( ϕ ) = p ( y ∣ η ) = { p ( y = 1 ∣ y ; φ ) = φ p ( y = 0 ∣ y ; φ ) = 1 − φ , y ∈ { 0 , 1 }

即,
P(y,ϕ)=ϕy(1ϕ)(1y)=exp(logϕy(1ϕ)(1y))=exp(ylogϕ+(1y)log(1ϕ))=exp(ylogϕ1ϕ+log(1ϕ))(5)(6)(7)(8) (5) P ( y , ϕ ) = ϕ y ( 1 − ϕ ) ( 1 − y ) (6) = e x p ( l o g ϕ y ( 1 − ϕ ) ( 1 − y ) ) (7) = e x p ( y l o g ϕ + ( 1 − y ) l o g ( 1 − ϕ ) ) (8) = e x p ( y l o g ϕ 1 − ϕ + l o g ( 1 − ϕ ) )

所以有,
η=logϕ1ϕ(9) (9) η = l o g ϕ 1 − ϕ
ϕ=11+eη(10) (10) ϕ = 1 1 + e − η
P(y,ϕ)=log(1ϕ)=log(1+eη)(11)(12) (11) P ( y , ϕ ) = − l o g ( 1 − ϕ ) (12) = l o g ( 1 + e η )

T(y)=y(13) (13) T ( y ) = y
b(y)=1(14) (14) b ( y ) = 1
这样我们就可以清楚地看出伯努力分布如何定义了一个以 η η 为参数的函数族。同时也说明了, y{0,1}:Bernoulli(ϕ)LogisticRegression y ∈ { 0 , 1 } : B e r n o u l l i ( ϕ ) → L o g i s t i c R e g r e s s i o n 的模型函数的logistic函数的形式问题

2.Gaussian Distribution

在线性回归模型中, σ2 σ 2 的取值对于最后的 θ θ hθ(x) h θ ( x ) 无影响,故以在这里,我们将 σ2 σ 2 取值为1。所以,高斯分布概率密度函数如下:

N(y;μ,1)=12πexp(12(yμ)2)=12πexp(12y212μ2+μy)=12πexp(12y2)exp(μy12μ2)(15)(16)(17) (15) N ( y ; μ , 1 ) = 1 2 π e x p ( − 1 2 ( y − μ ) 2 ) (16) = 1 2 π e x p ( − 1 2 y 2 − 1 2 μ 2 + μ y ) (17) = 1 2 π e x p ( − 1 2 y 2 ) e x p ( μ y − 1 2 μ 2 )

所以有,

η=μ(18) (18) η = μ
T(y)=y(19) (19) T ( y ) = y
a(η)=μ2/2=η2/2(20) (20) a ( η ) = μ 2 / 2 = η 2 / 2
b(y)=12πexp(12y2)(21) (21) b ( y ) = 1 2 π e x p ( − 1 2 y 2 )

这样我们就可以清楚地看高斯分布如何定义了一个以 η η 为参数的函数族。

这样,我们就说明了高斯分布和伯努力分布属于指数分布族 。同样的还有泊松分布(用于对记数建模,例如网站的访客数量,商店的顾客数)、伽马分布与指数分布(用于正数的分布,对间隔进行建模,例如在公交站等车时的下一趟车什么时候到)、 β β 分布与Dirichlet分布(用于小数的分布,对概率分布进行建模的概率分布)、Wishart分布(协方差矩阵分布)等等都属于指数分布族。

Multinomial Distribution

多项式分布是对伯努力分布的多元扩展,主要用于解决多分类问题。多分类问题使得对于0-1问题建模的伯努力分布 y{0,1} y ∈ { 0 , 1 } 无法满足问题需要,进而有 y{1,2...k} y ∈ { 1 , 2 . . . k }

定义1:概率 p(y=i)=ϕi p ( y = i ) = ϕ i ,为了避免过参数化所以有: ϕi=p(y=i;ϕ) ϕ i = p ( y = i ; ϕ )
k{1,k1} k ∈ { 1 , k − 1 } ,可以推出 ϕk=1i=1k1ϕi ϕ k = 1 − ∑ i = 1 k − 1 ϕ i
定义2:由于 T(y)y T ( y ) ≠ y ,所以 T(y)Rk1 T ( y ) ∈ R k − 1 ,即为:
这里写图片描述
定义3: 指示器函数 1{true}=1;1{false}=0 1 { t r u e } = 1 ; 1 { f a l s e } = 0 ,既有 (T(y))i=1{y=i} ( T ( y ) ) i = 1 { y = i } ,继而推得 E[(T(y))i]=P(y=i)=ϕi E [ ( T ( y ) ) i ] = P ( y = i ) = ϕ i

所以,多项式分布概率密度函数如下:
这里写图片描述
所以有,
这里写图片描述

所以,推导可得: ηi=logϕiϕk η i = l o g ϕ i ϕ k ,同时 ηk=logϕkϕk=log1=0 η k = l o g ϕ k ϕ k = l o g 1 = 0

继续推导:

eηi=ϕiϕk(22) (22) e η i = ϕ i ϕ k

ϕkeηi=ϕi(23) (23) ϕ k e η i = ϕ i

ϕki=1keηi=i=1kϕi=1(24) (24) ϕ k ∑ i = 1 k e η i = ∑ i = 1 k ϕ i = 1

ϕk=1i=1keηi(24) (24) ϕ k = 1 ∑ i = 1 k e η i

由等式(23) ϕkeηi=ϕi ϕ k e η i = ϕ i 可以得:

ϕi=ϕkeηi=eηij=1keηj(25) (25) ϕ i = ϕ k e η i = e η i ∑ j = 1 k e η j

Generalized Linear Models

Three Assumptions

首先我们对于GLM(Generalized Linear Models,广义线性模型)做出下述三个假设(设计决策):

  1. y|x;θExponentialFamily(η) y | x ; θ ∼ E x p o n e n t i a l F a m i l y ( η ) ,假设一的式子表示变量 y y 在给定的x ,并以 θ θ 为参数下的条件概率分布,属于以自然参数 η η 的指数分布族。
  2. 给定 x ,目标输出期望 E[T(y)|x] E [ T ( y ) | x ] ,估计函数为: h(x)=E[T(y)|x] h ( x ) = E [ T ( y ) | x ] ,一般 T(y)=y T ( y ) = y
  3. η=θTx η = θ T x ,即指数分布族中参数 η η 与输入特征 x x 满足某种线性关系。(一般而言,ηi=θiTx,ηR

由Bernoulli Distribution到Logistic Regression模型

Step1:Bernoulli: y|x;θExpFamily(η) y | x ; θ ∼ E x p F a m i l y ( η )
Step2:由假设二 hθ(x)=E(y|x;θ)=P(y=1|x:θ)=ϕ h θ ( x ) = E ( y | x ; θ ) = P ( y = 1 | x : θ ) = ϕ
Step3:由公式(10) ϕ=1/(1+eη) ϕ = 1 / ( 1 + e − η ) 和 假设三 η=θTx η = θ T x
Step4:所以 ϕ=1/(1+eη)ϕ=1/(1+eθTx) ϕ = 1 / ( 1 + e − η ) → ϕ = 1 / ( 1 + e − θ T x )
Step5: ϕ=1/(1+eθTx) ϕ = 1 / ( 1 + e − θ T x ) 就是Logistic Regression模型;

Note:

  1. g(η)=E[y|η]=(1+eη)1 g ( η ) = E [ y | η ] = ( 1 + e − η ) − 1 ,正则响应函数 。
  2. g(η)1 g ( η ) − 1 ,正则关联函数。

由Gaussian Distribution到Ordinary Least Squares模型

Step1:Gaussian: y|x;θExpFamily(η)N(μ,σ2) y | x ; θ ∼ E x p F a m i l y ( η ) ∼ N ( μ , σ 2 )
Step2:由假设二 hθ(x)=E(y|x;θ)=μ h θ ( x ) = E ( y | x ; θ ) = μ
Step3:由公式(18) η=μ η = μ 和 假设三 η=θTx η = θ T x
Step4:所以 hθ(x)=E(y|x;θ)=μ=η=θTx h θ ( x ) = E ( y | x ; θ ) = μ = η = θ T x
Step5: hθ(x)=θTx h θ ( x ) = θ T x 就是Ordinary Least Squares模型;

由Multinomial Distribution到Softmax Regression模型

Step1:Multinomial : y|x;θExpFamily(η) y | x ; θ ∼ E x p F a m i l y ( η )
Step2:由假设三 η=θTx η = θ T x

p(y=i|x;θ)=ϕi=eηij=1keηj=eθTixj=1keθTjx(26)(27)(28) (26) p ( y = i | x ; θ ) = ϕ i (27) = e η i ∑ j = 1 k e η j (28) = e θ i T x ∑ j = 1 k e θ j T x

Step3:由假设二
这里写图片描述

For Example:
假设有一个大小为m的训练集,它的似然函数为:
这里写图片描述
最后在在有了最大似然函数之后,我们就可以使用牛顿法或梯度法来求 θ θ

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值