指数分布族与广义线性模型

最新推荐文章于 2023-04-09 21:45:29 发布

zoujiahui_2018

最新推荐文章于 2023-04-09 21:45:29 发布

阅读量551

点赞数

分类专栏：概率统计文章标签：概率论线性代数机器学习

本文链接：https://blog.csdn.net/qq_18055167/article/details/120825740

版权

概率统计专栏收录该内容

6 篇文章 0 订阅

订阅专栏

文章目录

指数分布族的定义
自然参数形式1
- 性质
自然参数形式2
- 性质
- 可识别性
巴苏定理
广义线性模型
总结

指数分布族的定义

如果 $\{P_\theta: \theta\in\Theta\}$ 是关于 $\sigma-$ 有限测度 $\nu$ 定义在 $(\Omega, \mathcal{F})$ 上的分布族，其被成为指数分布族（exponential family）当且仅当
$\frac{d P_\theta}{d \nu}(x)=\exp\{\eta(\theta)^T T(x)-A(\theta)\}h(x),\quad x\in\Omega,$
其中 $T$ 是一个随机的 $p -$ 维向量，其维数 $p$ 固定， $\eta: \Theta\to \mathcal{R}^p$ ， $h$ 是一个非负的在 $(\Omega, \mathcal{F})$ 上的Borel函数。

自然参数形式1

如果 $x_i$ 的密度函数属于指数分布族，则具有如下形式：
$f(x|\theta, \phi)=\exp\left\{\frac{x\theta-b(\theta)}{a(\phi)}+c(x,\phi)\right\},$
其中：

1. $\theta$ 是指数族的参数，是我们感兴趣的； $\phi$ 是尺度参数或讨厌参数。
2. $a(\cdot), b(\cdot), c(\cdot,\cdot)$ 是依据不同指数分布族而确定的函数，注意 $c(\cdot,\cdot)$ 与 $\theta$ 无关。

性质

对于上式的指数分布族形式，利用积分号下求偏导可以得到：
$\mathbf{E}(x)=b'(\theta)\\ \mathbf{V}(x)=a(\phi)b''(\theta)$

自然参数形式2

如果存在1-1变换 $\xi(\theta)=(\xi_1(\theta),\cdots,\xi_s(\theta)): \Theta\to \mathbb{E}\subset\mathbb{R}^s$ , 此时分布族 $\mathcal{P}=\{\mathbb{P}_\theta, \theta\in\Theta\}$ 可以重新参数化为
$\mathcal{P}=\{\mathbb{P}_\xi, \xi\in \mathbb{E}\}.$
于是，可以得到指数分布族的自然参数形式：
$f(x,\xi)=\exp\left\{\sum_{i=1}^s \xi_i T_i(x)-A(\xi)\right\}h(x).$
且 $T=(T_1,\cdots,T_s)$ 是完全充分统计量

性质

通过自然参数形式可以得到：
$\mathbf{E}_\xi(T_i(x))=\frac{\partial A(\xi)}{\partial \xi_i\partial \xi_j}\\ \mathbf{Cov}_\xi(T_i(x), T_j(x))=\frac{\partial A(\xi)}{\partial \xi_i\partial \xi_j}$

可识别性

设 $\{\mathbb{P}_\xi, \xi\in\mathbb{E}\}$ 是一个指数分布族，其分布密度由自然参数形式给出，则 $\{\mathbb{P}_\xi, \xi\in\mathbb{E}\}$ 为可识别的充要条件是 $T(x)=\{T_1(x),\cdots, T_s(x)\}$ 的各分量不存在下列关系式：
$\alpha_1T_1(x)+\cdots+\alpha_sT_s(x)=\alpha_0,$
其中 $\alpha_1, \cdots, \alpha_s$ 为不全为零的常数， $\alpha_0$ 为常数。

巴苏定理

辅助统计量： 设 $(\mathcal{X},\mathcal{B}_\mathcal{X},\mathcal{P})$ ， $\mathcal{P}=\{\mathbb{P}_\theta\in\Theta\}$ 为统计模型， $V$ 为统计量，如果 $V$ 的分布族与参数 $\theta$ 无关，即统计量 $V$ 不含任何关于分布参数的信息，则称 $V$ 为辅助统计量。

巴苏定理： 在统计模型 $(\mathcal{X}, \mathcal{B}_\mathcal{X},\mathcal{P})$ , $\mathcal{P}=\{\mathbb{P}_\theta, \theta\in\Theta\}$ 中，设 $T$ 是完全充分统计量， $V$ 是辅助统计量，则 $V$ 和 $T$ 相互独立。

广义线性模型

广义线性模型是根据指数分布族构造的一类模型，其中的关键是连接函数（link funciton）的选择。
对于下面的形式
$f(x|\theta, \phi)=\exp\left\{\frac{x\theta-b(\theta)}{a(\phi)}+c(x,\phi)\right\},$
我们在估计参数 $\theta$ 时，因为知道 $\mu=\mathbf{E}(x)=b'(\theta)$ , 自然会想到利用 $\mu$ 来对 $\theta$ 进行估计。但是，我们并不知道 $\mu$ 和样本 $x$ 之间的关系，这个时候就需要一个连接函数（link function） $g(\cdot)$ 来建立这两者之间的关系 $g(\mu)=\beta^Tx$ (通常我们认为通过变换 $\mu$ 可以表示为样本的线性函数，或者叫作单指标形式，当然也可以有其他特别的形式)，如果 $g(\cdot)=b^{'-1}(\cdot)$ 我们称其为正则连接函数（Canonical Link function）。最后可以通过关系式 $\theta=b^{'-1}(g(\beta^Tx))$ 并结合极大似然估计来估计 $\theta$ 。

对于常见的贝努力分布 $b (1, p)$ ,
$f(x,p)=\exp\left[x\log\left(\frac{p}{1-p}\right)+\log(1-p)\right],$
其中 $\mu$ 与 $p$ 的关系有 $\mu=p$ , 设置连接函数 $\beta^Tx=\log(\frac{\mu}{1-\mu})$ , 则有
$p=\frac{1}{1+e^{-\beta^Tx}}.$
这就是logist回归模型。

进一步，如果选择连接函数满足 $p=\Phi(\beta^Tx)$ , 就probit回归模型。

当然，更进一步的推广是将连接函数 $g(\cdot)$ 视为未知的，可以利用非参数统计的方法进行估计。

总结

1.指数分布族可以很容易得到期望和方差的计算方法；
2.利用巴苏定理可以判断统计量之间的独立性；
3.广义线性是以指数分布族为基础的，利用好的连接函数可以得到很多有用的模型。

zoujiahui_2018

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
指数分布族与广义线性模型

指数分布族的定义如果xix_ixi的密度函数属于指数分布族，则具有如下形式：f(x∣θ,ϕ)=exp⁡{yθ−b(θ)a(ϕ)+c(y,ϕ)},f(x|\theta, \phi)=\exp\left\{\frac{y\theta-b(\theta)}{a(\phi)}+c(y,\phi)\right\},f(x∣θ,ϕ)=exp{a(ϕ)yθ−b(θ)+c(y,ϕ)},其中：1.θ\thetaθ是指数族的参数，是我们感兴趣的；ϕ\phiϕ是尺度参数或讨厌参数。2.a(⋅),b(⋅),c(⋅
复制链接

扫一扫

专栏目录