作者课堂笔记,有问题请联系humminwang@163.com
目录
- 指数族,广义线性模型
1 指数族
如果一种分布可以写成如下形式,那么这种分布属于指数族:
p
(
y
;
η
)
=
b
(
y
)
e
η
T
T
(
y
)
−
a
(
η
)
p(y;\eta)=b(y)e^{\eta^{T}T(y)-a(\eta)}
p(y;η)=b(y)eηTT(y)−a(η)
- η : \eta: η:分布的自然参数
- T ( y ) : T(y): T(y):充分统计量
- a ( η ) : l o g a(\eta):log a(η):log的分隔函数( a ( η ) a(\eta) a(η)作为归一化常量,目的是让 ∑ y p ( y ; η ) = 1 \sum_yp(y;\eta)=1 ∑yp(y;η)=1)
1.1 伯努利分布
分布形式:
p
(
y
;
ϕ
)
=
ϕ
y
(
1
−
ϕ
)
1
−
y
p(y;\phi)=\phi^y(1-\phi)^{1-y}
p(y;ϕ)=ϕy(1−ϕ)1−y
- η = l o g ( ϕ 1 − ϕ ) \eta=log(\frac{\phi}{1-\phi}) η=log(1−ϕϕ)
- b ( y ) = 1 b(y)=1 b(y)=1
- T ( y ) = y T(y)=y T(y)=y
- a ( η ) = l o g ( 1 + e η ) a(\eta)=log(1+e^\eta) a(η)=log(1+eη)
1.2 高斯分布
y
∼
χ
(
μ
,
1
)
y\sim\chi(\mu,1)
y∼χ(μ,1)
p
(
y
;
θ
)
=
1
2
π
e
−
(
y
−
μ
)
2
2
p(y;\theta)=\frac{1}{\sqrt{2\pi}}e^{-\frac{(y-\mu)^2}{2}}
p(y;θ)=2π1e−2(y−μ)2
- η = μ \eta=\mu η=μ
- b ( y ) = 1 2 π e y 2 2 b(y)=\frac{1}{\sqrt{2\pi}}e^{\frac{y^2}{2}} b(y)=2π1e2y2
- T ( y ) = y T(y)=y T(y)=y
- a ( η ) = 1 2 η 2 a(\eta)=\frac{1}{2}\eta^2 a(η)=21η2
y
∼
χ
(
μ
,
σ
2
)
y\sim\chi(\mu,\sigma^2)
y∼χ(μ,σ2)
p
(
y
;
θ
)
=
1
2
π
σ
2
e
−
(
y
−
μ
)
2
2
σ
2
p(y;\theta)=\frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(y-\mu)^2}{2\sigma^2}}
p(y;θ)=2πσ21e−2σ2(y−μ)2
- η = [ μ σ 2 − 1 2 σ 2 ] \eta=\begin{bmatrix}\frac{\mu}{\sigma^2}\\-\frac{1}{2\sigma^2}\end{bmatrix} η=[σ2μ−2σ21]
- b ( y ) = 1 2 π b(y)=\frac{1}{\sqrt{2\pi}} b(y)=2π1
- T ( y ) = [ y y 2 ] T(y)=\begin{bmatrix}y\\y^2\end{bmatrix} T(y)=[yy2]
- a ( η ) = μ 2 σ 2 + l o g σ a(\eta)=\frac{\mu}{2\sigma^2}+log\sigma a(η)=2σ2μ+logσ
1.3 柏松分布
p
(
y
;
λ
)
=
λ
y
e
−
λ
y
!
p(y;\lambda)=\frac{\lambda^ye^{-\lambda}}{y!}
p(y;λ)=y!λye−λ
- η = l o g ( λ ) \eta=log(\lambda) η=log(λ)
- b ( y ) = 1 y ! b(y)=\frac{1}{y!} b(y)=y!1
- T ( y ) = y T(y)=y T(y)=y
- a ( η ) = e η a(\eta)=e^\eta a(η)=eη
2 广义线性模型
通过改变y的分布,从而更好的拟合数据。是一种构造线性模型的方法,其中Y|X来自于指数族。
来源https://www.sohu.com/a/228212348_349736
广义线性模型的设计初衷:
- 为了使响应变量y可以有任意的分布。
- 允许任意的函数(链接函数)可以随着输入的x变化。
构建方法:
- y|x; θ ∼ \theta\sim θ∼指数族分布(高斯、柏松、伯努利…)
- 我们的目标是给定x,预测T(y)的期望,大多数情况是T(y)=y,而在其他情况下可能是E[y|x; θ \theta θ]
- 自然参数
η
\eta
η和x是线性相关的,满足
η
=
θ
T
x
\eta=\theta^Tx
η=θTx
如果问题满足以上的三个假设,那么我们那就可以构造广义线性模型来解决问题。
2.1 最小二乘法
应用GLM的构造准则:
- y|x;
θ
∼
N
(
μ
,
1
)
\theta\sim N(\mu,1)
θ∼N(μ,1)
η = μ , T ( y ) = y \eta=\mu,T(y)=y η=μ,T(y)=y - 推导假设函数:
h θ ( x ) = E [ y ∣ x ; θ ] = μ = η h_\theta(x)=E[y|x;\theta]=\mu=\eta hθ(x)=E[y∣x;θ]=μ=η - 应用线性模型
η
=
θ
T
x
\eta=\theta^Tx
η=θTx
h θ ( x ) = η = θ T x h_\theta(x)=\eta=\theta^Tx hθ(x)=η=θTx
典范响应函数: μ = g ( η ) = η \mu=g(\eta)=\eta μ=g(η)=η
典范链接函数: η = g − 1 ( μ ) = μ \eta=g^{-1}(\mu)=\mu η=g−1(μ)=μ
2.2 Logistic回归
应用GLM的构造准则:
- y|x;
θ
∼
B
e
r
n
o
u
l
l
i
(
ϕ
)
\theta\sim Bernoulli(\phi)
θ∼Bernoulli(ϕ)
η = l o g ( ϕ 1 − ϕ ) , T ( y ) = y \eta=log(\frac{\phi}{1-\phi}),T(y)=y η=log(1−ϕϕ),T(y)=y - 推导假设函数:
h θ ( x ) = E [ y ∣ x ; θ ] = ϕ = 1 1 + e − η h_\theta(x)=E[y|x;\theta]=\phi=\frac{1}{1+e^{-\eta}} hθ(x)=E[y∣x;θ]=ϕ=1+e−η1 - 应用线性模型
η
=
θ
T
x
\eta=\theta^Tx
η=θTx
h θ ( x ) = 1 1 + e − θ T x h_\theta(x)=\frac{1}{1+e^{-\theta^Tx}} hθ(x)=1+e−θTx1
典范响应函数: ϕ = g ( η ) = s i g m o i d ( η ) \phi=g(\eta)=sigmoid(\eta) ϕ=g(η)=sigmoid(η)
典范链接函数: η = g − 1 ( ϕ ) = l o g i t ( ϕ ) \eta=g^{-1}(\phi)=logit(\phi) η=g−1(ϕ)=logit(ϕ)
2.3 柏松回归(顾客预测)
应用GLM的构造准则:
- y|x;
θ
∼
P
o
i
s
s
o
n
(
λ
)
\theta\sim Poisson(\lambda)
θ∼Poisson(λ)
η = l o g ( λ ) , T ( y ) = y \eta=log(\lambda),T(y)=y η=log(λ),T(y)=y - 推导假设函数:
h θ ( x ) = E [ y ∣ x ; θ ] = λ = e η h_\theta(x)=E[y|x;\theta]=\lambda=e^\eta hθ(x)=E[y∣x;θ]=λ=eη - 应用线性模型
η
=
θ
T
x
\eta=\theta^Tx
η=θTx
h θ ( x ) = e θ T x h_\theta(x)=e^{\theta^Tx} hθ(x)=eθTx
典范响应函数: λ = g ( η ) = e η \lambda=g(\eta)=e^\eta λ=g(η)=eη
典范链接函数: η = g − 1 ( λ ) = l o g ( λ ) \eta=g^{-1}(\lambda)=log(\lambda) η=g−1(λ)=log(λ)
2.4 SoftMax回归
p
(
y
;
ϕ
)
=
∏
i
=
1
k
ϕ
i
1
{
y
=
i
}
p(y;\phi)=\prod_{i=1}^k\phi_i^{1\{y=i\}}
p(y;ϕ)=i=1∏kϕi1{y=i}
ϕ
k
=
1
−
∑
i
=
1
k
−
1
ϕ
i
\phi_k=1-\sum_{i=1}^{k-1}\phi_i
ϕk=1−∑i=1k−1ϕi
- T(y)= [ 1 { y = 1 } . . . 1 { y = k − 1 } ] \begin{bmatrix}1\{y=1\}\\...\\1\{y=k-1\}\\\end{bmatrix} ⎣⎡1{y=1}...1{y=k−1}⎦⎤
- η = [ l o g ( ϕ 1 ϕ k ) . . . l o g ( ϕ k − 1 ϕ k ) ] \eta=\begin{bmatrix}log(\frac{\phi_1}{\phi_k})\\...\\log(\frac{\phi_{k-1}}{\phi_k})\\\end{bmatrix} η=⎣⎢⎡log(ϕkϕ1)...log(ϕkϕk−1)⎦⎥⎤
- b(y)=1
- a( η \eta η)= − l o g ( ϕ k ) -log(\phi_k) −log(ϕk)
应用GLM的构造准则:
- y|x;
θ
∼
M
u
l
t
i
n
o
m
i
a
l
(
ϕ
1
,
.
.
.
.
ϕ
k
)
\theta\sim Multinomial(\phi_1,....\phi_k)
θ∼Multinomial(ϕ1,....ϕk)
η i = l o g ( ϕ i ϕ k ) , T ( y ) = [ 1 { y = 1 } . . . 1 { y = k − 1 } ] \eta_i=log(\frac{\phi_i}{\phi_k}),T(y)=\begin{bmatrix}1\{y=1\}\\...\\1\{y=k-1\}\\\end{bmatrix} ηi=log(ϕkϕi),T(y)=⎣⎡1{y=1}...1{y=k−1}⎦⎤
ϕ i = e η i ∑ j = 1 k e η j \phi_i=\frac{e^{\eta_{i}}}{\sum_{j=1}^ke^{\eta_{j}}} ϕi=∑j=1keηjeηi - 推导假设函数:
h θ ( x ) = E [ T ( y ) ; θ ] = [ ϕ 1 . . . ϕ k − 1 ] . . . . = ϕ i = e η i ∑ j = 1 k e η j h_\theta(x)=E[T(y);\theta]=\begin{bmatrix}\phi_1\\...\\\phi_{k-1}\\\end{bmatrix}....=\phi_i=\frac{e^{\eta_{i}}}{\sum_{j=1}^ke^{\eta_{j}}} hθ(x)=E[T(y);θ]=⎣⎡ϕ1...ϕk−1⎦⎤....=ϕi=∑j=1keηjeηi - 应用线性模型
η
=
θ
i
T
x
\eta=\theta_i^Tx
η=θiTx
h θ ( x ) = 1 ∑ j = 1 k e η j [ e θ 1 T x . . . e θ k − 1 T x ] h_\theta(x)=\frac{1}{\sum_{j=1}^ke^{\eta_{j}}}\begin{bmatrix}e^{\theta_1^Tx}\\...\\e^{\theta_{k-1}^Tx}\\\end{bmatrix} hθ(x)=∑j=1keηj1⎣⎡eθ1Tx...eθk−1Tx⎦⎤
典范响应函数: ϕ i = g ( η ) = e η i ∑ j = 1 k e η j \phi_i=g(\eta)=\frac{e^{\eta_{i}}}{\sum_{j=1}^ke^{\eta_{j}}} ϕi=g(η)=∑j=1keηjeηi
典范链接函数: η = g − 1 ( ϕ i ) = l o g ( ϕ i ϕ k ) \eta=g^{-1}(\phi_i)=log(\frac{\phi_i}{\phi_k}) η=g−1(ϕi)=log(ϕkϕi)