数据学习(2)·广义线性模型

作者课堂笔记,有问题请联系humminwang@163.com

目录

  • 指数族,广义线性模型

1 指数族

如果一种分布可以写成如下形式,那么这种分布属于指数族:
p ( y ; η ) = b ( y ) e η T T ( y ) − a ( η ) p(y;\eta)=b(y)e^{\eta^{T}T(y)-a(\eta)} p(y;η)=b(y)eηTT(y)a(η)

  • η : \eta: η:分布的自然参数
  • T ( y ) : T(y): T(y):充分统计量
  • a ( η ) : l o g a(\eta):log a(η):log的分隔函数( a ( η ) a(\eta) a(η)作为归一化常量,目的是让 ∑ y p ( y ; η ) = 1 \sum_yp(y;\eta)=1 yp(y;η)=1)

1.1 伯努利分布

分布形式:
p ( y ; ϕ ) = ϕ y ( 1 − ϕ ) 1 − y p(y;\phi)=\phi^y(1-\phi)^{1-y} p(y;ϕ)=ϕy(1ϕ)1y

  • η = l o g ( ϕ 1 − ϕ ) \eta=log(\frac{\phi}{1-\phi}) η=log(1ϕϕ)
  • b ( y ) = 1 b(y)=1 b(y)=1
  • T ( y ) = y T(y)=y T(y)=y
  • a ( η ) = l o g ( 1 + e η ) a(\eta)=log(1+e^\eta) a(η)=log(1+eη)

1.2 高斯分布

y ∼ χ ( μ , 1 ) y\sim\chi(\mu,1) yχ(μ,1)
p ( y ; θ ) = 1 2 π e − ( y − μ ) 2 2 p(y;\theta)=\frac{1}{\sqrt{2\pi}}e^{-\frac{(y-\mu)^2}{2}} p(y;θ)=2π 1e2(yμ)2

  • η = μ \eta=\mu η=μ
  • b ( y ) = 1 2 π e y 2 2 b(y)=\frac{1}{\sqrt{2\pi}}e^{\frac{y^2}{2}} b(y)=2π 1e2y2
  • T ( y ) = y T(y)=y T(y)=y
  • a ( η ) = 1 2 η 2 a(\eta)=\frac{1}{2}\eta^2 a(η)=21η2

y ∼ χ ( μ , σ 2 ) y\sim\chi(\mu,\sigma^2) yχ(μ,σ2)
p ( y ; θ ) = 1 2 π σ 2 e − ( y − μ ) 2 2 σ 2 p(y;\theta)=\frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(y-\mu)^2}{2\sigma^2}} p(y;θ)=2πσ2 1e2σ2(yμ)2

  • η = [ μ σ 2 − 1 2 σ 2 ] \eta=\begin{bmatrix}\frac{\mu}{\sigma^2}\\-\frac{1}{2\sigma^2}\end{bmatrix} η=[σ2μ2σ21]
  • b ( y ) = 1 2 π b(y)=\frac{1}{\sqrt{2\pi}} b(y)=2π 1
  • T ( y ) = [ y y 2 ] T(y)=\begin{bmatrix}y\\y^2\end{bmatrix} T(y)=[yy2]
  • a ( η ) = μ 2 σ 2 + l o g σ a(\eta)=\frac{\mu}{2\sigma^2}+log\sigma a(η)=2σ2μ+logσ

1.3 柏松分布

p ( y ; λ ) = λ y e − λ y ! p(y;\lambda)=\frac{\lambda^ye^{-\lambda}}{y!} p(y;λ)=y!λyeλ
lambda

  • η = l o g ( λ ) \eta=log(\lambda) η=log(λ)
  • b ( y ) = 1 y ! b(y)=\frac{1}{y!} b(y)=y!1
  • T ( y ) = y T(y)=y T(y)=y
  • a ( η ) = e η a(\eta)=e^\eta a(η)=eη

2 广义线性模型

通过改变y的分布,从而更好的拟合数据。是一种构造线性模型的方法,其中Y|X来自于指数族。GLM

来源https://www.sohu.com/a/228212348_349736

广义线性模型的设计初衷

  • 为了使响应变量y可以有任意的分布。
  • 允许任意的函数(链接函数)可以随着输入的x变化。

构建方法

  • y|x; θ ∼ \theta\sim θ指数族分布(高斯、柏松、伯努利…)
  • 我们的目标是给定x,预测T(y)的期望,大多数情况是T(y)=y,而在其他情况下可能是E[y|x; θ \theta θ]
  • 自然参数 η \eta η和x是线性相关的,满足 η = θ T x \eta=\theta^Tx η=θTx
    如果问题满足以上的三个假设,那么我们那就可以构造广义线性模型来解决问题。

2.1 最小二乘法

应用GLM的构造准则:

  • y|x; θ ∼ N ( μ , 1 ) \theta\sim N(\mu,1) θN(μ,1)
    η = μ , T ( y ) = y \eta=\mu,T(y)=y η=μ,T(y)=y
  • 推导假设函数:
    h θ ( x ) = E [ y ∣ x ; θ ] = μ = η h_\theta(x)=E[y|x;\theta]=\mu=\eta hθ(x)=E[yx;θ]=μ=η
  • 应用线性模型 η = θ T x \eta=\theta^Tx η=θTx
    h θ ( x ) = η = θ T x h_\theta(x)=\eta=\theta^Tx hθ(x)=η=θTx
    典范响应函数: μ = g ( η ) = η \mu=g(\eta)=\eta μ=g(η)=η
    典范链接函数: η = g − 1 ( μ ) = μ \eta=g^{-1}(\mu)=\mu η=g1(μ)=μ

2.2 Logistic回归

应用GLM的构造准则:

  • y|x; θ ∼ B e r n o u l l i ( ϕ ) \theta\sim Bernoulli(\phi) θBernoulli(ϕ)
    η = l o g ( ϕ 1 − ϕ ) , T ( y ) = y \eta=log(\frac{\phi}{1-\phi}),T(y)=y η=log(1ϕϕ),T(y)=y
  • 推导假设函数:
    h θ ( x ) = E [ y ∣ x ; θ ] = ϕ = 1 1 + e − η h_\theta(x)=E[y|x;\theta]=\phi=\frac{1}{1+e^{-\eta}} hθ(x)=E[yx;θ]=ϕ=1+eη1
  • 应用线性模型 η = θ T x \eta=\theta^Tx η=θTx
    h θ ( x ) = 1 1 + e − θ T x h_\theta(x)=\frac{1}{1+e^{-\theta^Tx}} hθ(x)=1+eθTx1
    典范响应函数: ϕ = g ( η ) = s i g m o i d ( η ) \phi=g(\eta)=sigmoid(\eta) ϕ=g(η)=sigmoid(η)
    典范链接函数: η = g − 1 ( ϕ ) = l o g i t ( ϕ ) \eta=g^{-1}(\phi)=logit(\phi) η=g1(ϕ)=logit(ϕ)

2.3 柏松回归(顾客预测)

应用GLM的构造准则:

  • y|x; θ ∼ P o i s s o n ( λ ) \theta\sim Poisson(\lambda) θPoisson(λ)
    η = l o g ( λ ) , T ( y ) = y \eta=log(\lambda),T(y)=y η=log(λ),T(y)=y
  • 推导假设函数:
    h θ ( x ) = E [ y ∣ x ; θ ] = λ = e η h_\theta(x)=E[y|x;\theta]=\lambda=e^\eta hθ(x)=E[yx;θ]=λ=eη
  • 应用线性模型 η = θ T x \eta=\theta^Tx η=θTx
    h θ ( x ) = e θ T x h_\theta(x)=e^{\theta^Tx} hθ(x)=eθTx
    典范响应函数: λ = g ( η ) = e η \lambda=g(\eta)=e^\eta λ=g(η)=eη
    典范链接函数: η = g − 1 ( λ ) = l o g ( λ ) \eta=g^{-1}(\lambda)=log(\lambda) η=g1(λ)=log(λ)

2.4 SoftMax回归

p ( y ; ϕ ) = ∏ i = 1 k ϕ i 1 { y = i } p(y;\phi)=\prod_{i=1}^k\phi_i^{1\{y=i\}} p(y;ϕ)=i=1kϕi1{y=i}
ϕ k = 1 − ∑ i = 1 k − 1 ϕ i \phi_k=1-\sum_{i=1}^{k-1}\phi_i ϕk=1i=1k1ϕi

  • T(y)= [ 1 { y = 1 } . . . 1 { y = k − 1 } ] \begin{bmatrix}1\{y=1\}\\...\\1\{y=k-1\}\\\end{bmatrix} 1{y=1}...1{y=k1}
  • η = [ l o g ( ϕ 1 ϕ k ) . . . l o g ( ϕ k − 1 ϕ k ) ] \eta=\begin{bmatrix}log(\frac{\phi_1}{\phi_k})\\...\\log(\frac{\phi_{k-1}}{\phi_k})\\\end{bmatrix} η=log(ϕkϕ1)...log(ϕkϕk1)
  • b(y)=1
  • a( η \eta η)= − l o g ( ϕ k ) -log(\phi_k) log(ϕk)

应用GLM的构造准则:

  • y|x; θ ∼ M u l t i n o m i a l ( ϕ 1 , . . . . ϕ k ) \theta\sim Multinomial(\phi_1,....\phi_k) θMultinomial(ϕ1,....ϕk)
    η i = l o g ( ϕ i ϕ k ) , T ( y ) = [ 1 { y = 1 } . . . 1 { y = k − 1 } ] \eta_i=log(\frac{\phi_i}{\phi_k}),T(y)=\begin{bmatrix}1\{y=1\}\\...\\1\{y=k-1\}\\\end{bmatrix} ηi=log(ϕkϕi),T(y)=1{y=1}...1{y=k1}
    ϕ i = e η i ∑ j = 1 k e η j \phi_i=\frac{e^{\eta_{i}}}{\sum_{j=1}^ke^{\eta_{j}}} ϕi=j=1keηjeηi
  • 推导假设函数:
    h θ ( x ) = E [ T ( y ) ; θ ] = [ ϕ 1 . . . ϕ k − 1 ] . . . . = ϕ i = e η i ∑ j = 1 k e η j h_\theta(x)=E[T(y);\theta]=\begin{bmatrix}\phi_1\\...\\\phi_{k-1}\\\end{bmatrix}....=\phi_i=\frac{e^{\eta_{i}}}{\sum_{j=1}^ke^{\eta_{j}}} hθ(x)=E[T(y);θ]=ϕ1...ϕk1....=ϕi=j=1keηjeηi
  • 应用线性模型 η = θ i T x \eta=\theta_i^Tx η=θiTx
    h θ ( x ) = 1 ∑ j = 1 k e η j [ e θ 1 T x . . . e θ k − 1 T x ] h_\theta(x)=\frac{1}{\sum_{j=1}^ke^{\eta_{j}}}\begin{bmatrix}e^{\theta_1^Tx}\\...\\e^{\theta_{k-1}^Tx}\\\end{bmatrix} hθ(x)=j=1keηj1eθ1Tx...eθk1Tx
    典范响应函数: ϕ i = g ( η ) = e η i ∑ j = 1 k e η j \phi_i=g(\eta)=\frac{e^{\eta_{i}}}{\sum_{j=1}^ke^{\eta_{j}}} ϕi=g(η)=j=1keηjeηi
    典范链接函数: η = g − 1 ( ϕ i ) = l o g ( ϕ i ϕ k ) \eta=g^{-1}(\phi_i)=log(\frac{\phi_i}{\phi_k}) η=g1(ϕi)=log(ϕkϕi)

3 总结广义线性模型

在这里插入图片描述

4 练习

答案地址:https://pan.baidu.com/s/1ytOYfFKUDKVJI7Yg-07KoA
练习
练习2
练习3

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值