项目github地址:bitcarmanlee easy-algorithm-interview-and-practice
欢迎大家star,留言,一起学习进步
在各种算法相关的paper中,经常看到指数分布族这个概念。博主作为一个好奇心很强喜欢打破砂锅问到底的人,看到一个东西老在眼前晃来晃去却又似懂非懂,心里非常难受,于是想好好了解一下这个指数分布族到底是个什么鬼。。。
1.指数分布族的概念
指数分布族是指可以表示为指数形式的概率分布。wiki上的定义如下:
A single-parameter exponential family is a set of probability distributions whose probability density function (or probability mass function, for the case of a discrete distribution) can be expressed in the form
f
X
(
x
∣
θ
)
=
h
(
x
)
exp
(
η
(
θ
)
⋅
T
(
x
)
−
A
(
θ
)
)
f_X(x\mid\theta) = h(x) \exp \left (\eta(\theta) \cdot T(x) -A(\theta)\right )
fX(x∣θ)=h(x)exp(η(θ)⋅T(x)−A(θ))
其中, η \eta η为自然参数(nature parameter), T ( x ) T(x) T(x)是充分统计量(sufficient statistic)。当参数A,h,T都固定以后,就定义了一个以 η \eta η为参数的函数族。
2.其他常见分布于指数分布族的关系
2.1 伯努利分布
伯努利分布是对0,1分布的问题进行建模。对于
B
e
r
n
o
u
l
i
(
φ
)
,
y
∈
{
0
,
1
}
Bernouli(\varphi),y\in\{0,1\}
Bernouli(φ),y∈{0,1},其概率密度函数如下:
{
p
(
y
=
1
;
φ
)
=
φ
p
(
y
=
1
;
φ
)
=
φ
\begin{cases} p(y=1;\varphi) = \varphi \\ p(y=1;\varphi) = \varphi \end{cases}
{p(y=1;φ)=φp(y=1;φ)=φ
将其华为指数分布族的形式:
KaTeX parse error: No such environment: align at position 7: \begin{̲a̲l̲i̲g̲n̲}̲ P(y,\varphi) &…
将上面转化以后的表达式与指数分布族对比,可以看出:
h
(
y
)
=
1
h(y) = 1
h(y)=1
T
(
y
)
=
y
T(y) = y
T(y)=y
η
=
l
o
g
φ
1
−
φ
\eta=log\frac{\varphi}{1-\varphi}
η=log1−φφ
φ
=
1
1
+
e
−
η
\varphi=\frac{1}{1+e^{-\eta}}
φ=1+e−η1
A
(
η
)
=
−
l
o
g
(
1
−
φ
)
A(\eta)=-log(1-\varphi)
A(η)=−log(1−φ)
由此可见,伯努利分布也是指数分布族的一种。细心的小伙伴发现了, θ \theta θ的形式与logistic函数的形式一致。(logistic函数的详解请参考 http://blog.csdn.net/bitcarmanlee/article/details/51154481)。这是因为 logistic模型对问题的前置概率估计其实就是伯努利分布。(貌似没有特别理解,以后再来慢慢琢磨)
2.2高斯分布(正态分布)
关于高斯分布的来龙去脉,足足可以写厚厚一本书。后面有时间回来详细整理高斯分布的相关资料。
关于高斯分布的详细推导过程如下(为了方便起见,将方差
σ
\sigma
σ设为1):
KaTeX parse error: No such environment: align at position 7: \begin{̲a̲l̲i̲g̲n̲}̲ N(\mu,1) & = \…
将其与指数分布族对比,可知:
h
(
y
)
=
1
2
π
e
x
p
(
−
1
2
y
2
)
h(y) = \frac{1}{\sqrt{2\pi}} exp\left(-\frac{1}{2}y^2\right)
h(y)=2π1exp(−21y2)
T
(
y
)
=
y
T(y) = y
T(y)=y
η
=
μ
\eta = \mu
η=μ
A
(
η
)
=
1
2
μ
2
A(\eta) = \frac{1}{2}\mu ^2
A(η)=21μ2
伯努利分布与高斯分布是两个典型的指数分布族
3.广义线性模型(Generalized Linear Model GLM)
通过上面两个例子我们可以看出,在伯努利的指数分布族形式中, θ \theta θ 与伯努利分布中的参数 φ \varphi φ是一个logistic函数。而在高斯分布的指数分布族形式中, θ \theta θ是与 μ \mu μ相等的一个 表达式 (前提是我们假设了 σ = 1 \sigma=1 σ=1)。通过以上的例子, θ \theta θ以不同的映射函数与其它概率分布函数中的参数发生联系,从而得到不同的模型,广义线性模型正是将指数分布族中的所有成员(每个成员正好有一个这样的联系)都作为线性模型的扩展,通过各种非线性的连接函数将线性函数映射到其他空间,从而大大扩大了线性模型可解决的问题。
下面我们看 GLM 的形式化定义,GLM 有三个假设:
(1)
y
∣
x
;
θ
E
x
p
o
n
e
n
t
i
a
l
F
a
m
i
l
y
(
θ
)
y|x;θ ExponentialFamily(\theta)
y∣x;θExponentialFamily(θ) 给定样本
x
x
x与参数
θ
\theta
θ,样本分类
y
y
y 服从指数分布族中的某个分布;
(2) 给定一个
x
x
x,我们需要的目标函数为
h
(
θ
(
x
)
)
=
E
[
T
(
y
)
∣
x
]
h(\theta(x))=E[T(y)|x]
h(θ(x))=E[T(y)∣x];
(3)
η
=
θ
T
x
\eta=\theta^Tx
η=θTx。
根据伯努利分布推导logistic模型的过程如下:
KaTeX parse error: No such environment: align at position 7: \begin{̲a̲l̲i̲g̲n̲}̲ h_\theta(x) & …
总之,广义线性模型通过拟合响应变量的条件均值的一个函数(不是响应变量的条件均值),并假设响应变量服从指数分布族中的某个分布(不限于正态分布),从而极大地扩展了标准线性模型。模型参数估计的推导依据是极大似然估计,而非最小二乘法。
本博文主要参考了以下内容,感谢大牛们的无私分享:
http://www.aliog.com/83492.html