Exponential family of distributions

本文介绍了指数族分布的定义、性质及其在极大似然估计和最大熵原则中的应用。通过具体例子如伯努利分布、指数分布和正态分布,阐述了如何利用这些原理进行参数估计和寻找最佳分布形态。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Choi H. I. Lecture 4: Exponential family of distributions and generalized linear model (GLM).

定义

定义: 一个分布具有如下形式的密度函数:
f θ ( x ) = 1 Z ( θ ) h ( x ) e ⟨ T ( x ) , θ ⟩ , f_{\theta}(x) = \frac{1}{Z(\theta)} h(x) e^{\langle T(x), \theta \rangle}, fθ(x)=Z(θ)1h(x)eT(x),θ,
则该分布属于指数族分布.
其中 x ∈ R m x \in \mathbb{R}^m xRm, T ( x ) = ( T 1 ( x ) , T 2 ( x ) , ⋯   , T k ( x ) ) ∈ R k T(x) = (T_1(x), T_2(x), \cdots, T_k(x)) \in \mathbb{R}^k T(x)=(T1(x),T2(x),,Tk(x))Rk, θ = ( θ 1 , θ 2 , ⋯   , θ k ) \theta = (\theta_1, \theta_2,\cdots, \theta_k) θ=(θ1,θ2,,θk)为未知参数, Z ( θ ) = ∫ h ( x ) e ⟨ T ( x ) , θ ⟩ d x Z(\theta) = \int h(x)e^{\langle T(x), \theta \rangle} \mathrm{d}x Z(θ)=h(x)eT(x),θdx为配平常数.

若令 C ( x ) = log ⁡ h ( x ) C(x) = \log h (x) C(x)=logh(x), A ( θ ) = log ⁡ Z ( θ ) A(\theta) = \log Z(\theta) A(θ)=logZ(θ), 则
f θ ( x ) = exp ⁡ ( ⟨ T ( x ) , θ ⟩ − A ( θ ) + C ( x ) ) . f_{\theta}(x) = \exp (\langle T(x), \theta \rangle - A(\theta) + C(x)). fθ(x)=exp(T(x),θA(θ)+C(x)).
指数族分布还有一种更一般的形式:
f θ ( x ) = exp ⁡ ( ⟨ T ( x ) , θ ⟩ − A ( θ ) ϕ + C ( x , ϕ ) ) , f_{\theta}(x) = \exp (\frac{\langle T(x), \theta \rangle - A(\theta)}{\phi} + C(x, \phi)), fθ(x)=exp(ϕT(x),θA(θ)+C(x,ϕ)),
更甚者
f θ ( x ) = exp ⁡ ( ⟨ T ( x ) , λ ( θ ) ⟩ − A ( θ ) ϕ + C ( x , ϕ ) ) , f_{\theta}(x) = \exp (\frac{\langle T(x), \lambda(\theta) \rangle - A(\theta)}{\phi} + C(x, \phi)), fθ(x)=exp(ϕT(x),λ(θ)A(θ)+C(x,ϕ)),
ϕ \phi ϕ控制分布的形状.

性质

A ( θ ) A(\theta) A(θ)

Proposition 1:
∇ θ A ( θ ) = ∫ f θ ( x ) T ( x ) d x = E [ T ( X ) ] . \nabla_{\theta}A(\theta) = \int f_{\theta}(x) T(x) \mathrm{d}x = \mathbb{E}[T(X)]. θA(θ)=fθ(x)T(x)dx=E[T(X)].

proof:

已知:
∫ f θ ( x ) d x = ∫ exp ⁡ ( ⟨ T ( x ) , θ ⟩ − A ( θ ) ϕ + C ( x , ϕ ) ) d x = 1. \int f_{\theta}(x) \mathrm{d}x = \int \exp (\frac{\langle T(x), \theta \rangle - A(\theta)}{\phi} + C(x, \phi)) \mathrm{d}x = 1. fθ(x)dx=exp(ϕT(x),θA(θ)+C(x,ϕ))dx=1.
两边关于 θ \theta θ求梯度得:
∫ f θ ( x ) T ( x ) − ∇ θ A ( θ ) ϕ d x = 0 ⇒ ∇ θ A ( θ ) = E [ T ( X ) ] . \int f_{\theta}(x) \frac{T(x) - \nabla_{\theta} A(\theta)}{\phi} \mathrm{d}x = 0 \Rightarrow \nabla_{\theta} A(\theta) = \mathbb{E}[T(X)]. fθ(x)ϕT(x)θA(θ)dx=0θA(θ)=E[T(X)].

Proposition 2:
D θ 2 A = ( ∂ 2 A ∂ θ i ∂ θ j ) = 1 ϕ C o v ( T ( X ) , T ( X ) ) = 1 ϕ C o v ( T ( X ) ) . D^2_{\theta} A = (\frac{\partial^2 A}{\partial\theta_i \partial \theta_j}) = \frac{1}{\phi}\mathrm{Cov}(T(X), T(X)) = \frac{1}{\phi}Cov(T(X)). Dθ2A=(θiθj2A)=ϕ1Cov(T(X),T(X))=ϕ1Cov(T(X)).

proof:

∂ A ∂ θ i = ∫ exp ⁡ ( ⟨ T ( x ) , θ ⟩ − A ( θ ) ϕ + C ( x , ϕ ) ) T i ( x ) d x . \frac{\partial A}{\partial \theta_i} = \int \exp (\frac{\langle T(x), \theta \rangle - A(\theta)}{\phi} + C(x, \phi)) T_i(x) \mathrm{d}x. θiA=exp(ϕT(x),θA(θ)+C(x,ϕ))Ti(x)dx.

∂ 2 A ∂ θ i ∂ θ j = ∫ f θ ( x ) T j ( x ) − ∂ A ∂ θ j ϕ T i ( x ) d x = 1 ϕ ∫ f θ ( x ) ( T j ( x ) − ∂ A ∂ θ j ) ( T i ( x ) − ∂ A ∂ θ i ) d x = C o v ( T i ( X ) , T j ( X ) ) . \begin{array}{ll} \frac{\partial^2 A}{\partial \theta_i \partial \theta_j} &= \int f_{\theta}(x) \frac{T_j (x) - \frac{\partial A}{\partial \theta_j}}{\phi} T_i(x) \mathrm{d}x \\ &= \frac{1}{\phi}\int f_{\theta}(x) (T_j(x) - \frac{\partial A}{\partial \theta_j}) (T_i(x) - \frac{\partial A}{\partial \theta_i})\mathrm{d}x \\ &= \mathrm{Cov}(T_i(X), T_j(X)). \end{array} θiθj2A=fθ(x)ϕTj(x)θjATi(x)dx=ϕ1fθ(x)(Tj(x)θjA)(Ti(x)θiA)dx=Cov(Ti(X),Tj(X)).

Corollary 1: A ( θ ) A({\theta}) A(θ)关于 θ \theta θ是凸函数.

既然其黑塞矩阵半正定.

极大似然估计

设有 { x i } i = 1 n \{x^i\}_{i=1}^n {xi}i=1n个样本, 则对数似然函数为
l ( θ ) = 1 θ [ ⟨ θ , ∑ i = 1 n T ( x i ) − n A ( θ ) ] + ∑ i = 1 n C ( x i , ϕ ) , l(\theta) = \frac{1}{\theta}[\langle \theta, \sum_{i=1}^n T(x^i)-nA(\theta)] + \sum_{i=1}^n C(x^i, \phi), l(θ)=θ1[θ,i=1nT(xi)nA(θ)]+i=1nC(xi,ϕ),
因为 A ( θ ) A(\theta) A(θ)是凸函数, 所以上述存在最小值点, 且
∇ θ l ( θ ) = 1 ϕ [ ∑ i = 1 n T ( x i ) − n ∇ θ A ( θ ) ] , \nabla_{\theta} l(\theta) = \frac{1}{\phi}[\sum_{i=1}^n T(x^i) - n \nabla_{\theta}A(\theta)], θl(θ)=ϕ1[i=1nT(xi)nθA(θ)],
故该最小值点在
∇ θ A ( θ ) = 1 n ∑ i = 1 n T ( x i ) , \nabla_{\theta}A(\theta) = \frac{1}{n} \sum_{i=1}^n T(x^i), θA(θ)=n1i=1nT(xi),
处达到.

最大熵

最大熵原理-科学空间

指数族分布实际上满足最大熵分布, 这是在没有任何偏爱的尺度下的分布.


max ⁡ f H ( f ) = − ∫ f ( x ) log ⁡ f ( x ) d x . \max_{f} \quad H(f) = -\int f(x)\log f(x) \mathrm{d} x. fmaxH(f)=f(x)logf(x)dx.

等价于最小化
min ⁡ f ∫ f ( x ) log ⁡ f ( x ) d x . \min_f \int f(x)\log f(x) \mathrm{d}x. fminf(x)logf(x)dx.

往往, 我们会有一些已知的统计信息, 通常以期望的形式表示:
∫ f ( x ) h i ( x ) d x = c i , i = 1 , 2 ⋯   , s . \int f(x) h_i(x) \mathrm{d}x = c_i, \quad i=1,2\cdots, s. f(x)hi(x)dx=ci,i=1,2,s.
则我们的目标实际上是:
min ⁡ f ∫ f ( x ) log ⁡ f ( x ) d x s . t . ∫ f ( x ) h i ( x ) d x = c i , i = 0 , 2 ⋯   , s . \min_f \quad \int f(x)\log f(x) \mathrm{d}x \\ \mathrm{s.t.} \quad \int f(x) h_i(x) \mathrm{d}x = c_i, \quad i=0,2\cdots, s. fminf(x)logf(x)dxs.t.f(x)hi(x)dx=ci,i=0,2,s.
其中 h 0 = 1 , c 0 = 1 h_0 = 1, c_0 =1 h0=1,c0=1, 即密度函数需满足 ∫ f ( x ) d x = 1 \int f(x) \mathrm{d} x= 1 f(x)dx=1.

利用拉格朗日乘数得:
J ( f , λ ) = ∫ f ( x ) log ⁡ f ( x ) d x + λ 0 ( 1 − ∫ f ( x ) d x ) + ∑ i = 1 s λ i [ c i − ∫ f ( x ) h i ( x ) d x ] . J(f,\lambda) = \int f(x)\log f(x) \mathrm{d}x + \lambda_0 (1 - \int f(x) \mathrm{d}x) + \sum_{i=1}^s \lambda_i [c_i - \int f(x) h_i(x) \mathrm{d}x] . J(f,λ)=f(x)logf(x)dx+λ0(1f(x)dx)+i=1sλi[cif(x)hi(x)dx].

最优条件, J J J关于 f f f的变分为0, 即
1 + log ⁡ f ( x ) − λ 0 − ∑ i = 1 s λ i h i ( x ) = 0. 1 + \log f(x) - \lambda_0 - \sum_{i=1}^s \lambda_i h_i(x) = 0. 1+logf(x)λ0i=1sλihi(x)=0.

f ( x ) = 1 Z exp ⁡ ( ∑ i = 1 s λ i h i ( x ) ) . f(x) = \frac{1}{Z} \exp(\sum_{i=1}^s \lambda_i h_i(x)). f(x)=Z1exp(i=1sλihi(x)).

属于指数分布族.

例子

Bernoulli

P ( x ) = p x ( 1 − p ) 1 − x = exp ⁡ [ x log ⁡ p 1 − p + log ⁡ ( 1 − p ) ] . P(x) = p^x (1-p)^{1-x} = \exp[x\log\frac{p}{1-p} + \log (1 - p)]. P(x)=px(1p)1x=exp[xlog1pp+log(1p)].

θ = log ⁡ p 1 − p , T ( x ) = x , A ( θ ) = log ⁡ ( 1 + e θ ) , h ( x ) = 0. \theta = \log \frac{p}{1-p}, \\ T(x) = x, \\ A(\theta) = \log (1 + e^{\theta}),\\ h(x) = 0. θ=log1pp,T(x)=x,A(θ)=log(1+eθ),h(x)=0.

指数分布

p ( x ) = λ ⋅ e − λ x = exp ⁡ [ − λ x + log ⁡ λ ] , x ≥ 0. p(x) = \lambda \cdot e^{-\lambda x}=\exp[-\lambda x +\log \lambda ], \quad x \ge 0. p(x)=λeλx=exp[λx+logλ],x0.

θ = λ , T ( x ) = − x , A ( θ ) = log ⁡ 1 λ , h ( x ) = I ( x ≥ 0 ) . \theta = \lambda,\\ T(x) =-x, \\ A(\theta) = \log \frac{1}{\lambda}, \\ h(x) = \mathbb{I}(x\ge0). θ=λ,T(x)=x,A(θ)=logλ1,h(x)=I(x0).

正态分布

p ( x ) = 1 2 π σ 2 exp ⁡ [ − ( x − μ ) 2 2 σ 2 ] . p(x) = \frac{1}{\sqrt{2\pi \sigma^2}} \exp [-\frac{(x-\mu)^2}{2\sigma^2}]. p(x)=2πσ2 1exp[2σ2(xμ)2].

σ \sigma σ视作已知参数:
p ( x ) = exp ⁡ [ − 1 2 x 2 + x μ − 1 2 μ 2 σ 2 − 1 2 log ⁡ ( 2 π σ 2 ) ] . p(x) = \exp [\frac{-\frac{1}{2}x^2 + x\mu - \frac{1}{2}\mu^2}{\sigma^2} - \frac{1}{2}\log (2\pi \sigma^2)]. p(x)=exp[σ221x2+xμ21μ221log(2πσ2)].

θ = ( μ , 1 ) , T ( x ) = ( x , − 1 2 x 2 ) , ϕ = σ 2 , A ( θ ) = 1 2 μ 2 , C ( x , ϕ ) = 1 2 log ⁡ ( 2 π σ 2 ) . \theta = (\mu, 1), \\ T(x) = (x, -\frac{1}{2}x^2), \\ \phi = \sigma^2, \\ A(\theta) = \frac{1}{2}\mu^2, \\ C(x, \phi) = \frac{1}{2} \log (2\pi \sigma^2). θ=(μ,1),T(x)=(x,21x2),ϕ=σ2,A(θ)=21μ2,C(x,ϕ)=21log(2πσ2).

σ \sigma σ视作未知参数:
p ( x ) = exp ⁡ [ − 1 2 σ 2 y 2 + μ σ 2 x − 1 2 σ 2 μ 2 − log ⁡ σ − 1 2 log ⁡ 2 π ] . p(x) = \exp [-\frac{1}{2\sigma^2}y^2 + \frac{\mu}{\sigma^2}x - \frac{1}{2\sigma^2}\mu^2 - \log \sigma - \frac{1}{2}\log 2\pi]. p(x)=exp[2σ21y2+σ2μx2σ21μ2logσ21log2π].

T ( x ) = ( x , 1 2 x 2 ) , θ = ( μ σ 2 , − 1 σ 2 ) , A ( θ ) = μ 2 2 σ 2 + log ⁡ σ , C ( x ) = − 1 2 log ⁡ ( 2 π ) . T(x) = (x, \frac{1}{2}x^2), \\ \theta = (\frac{\mu}{\sigma^2}, -\frac{1}{\sigma^2}), \\ A(\theta) = \frac{\mu^2}{2\sigma^2} + \log\sigma, \\ C(x) = -\frac{1}{2}\log(2\pi). T(x)=(x,21x2),θ=(σ2μ,σ21),A(θ)=2σ2μ2+logσ,C(x)=21log(2π).

### IntelliJ IDEA 中通义 AI 功能介绍 IntelliJ IDEA 提供了一系列强大的工具来增强开发体验,其中包括与通义 AI 相关的功能。这些功能可以帮助开发者更高效地编写代并提高生产力。 #### 安装通义插件 为了使用通义的相关特性,在 IntelliJ IDEA 中需要先安装对应的插件: 1. 打开 **Settings/Preferences** 对话框 (Ctrl+Alt+S 或 Cmd+, on macOS)。 2. 导航到 `Plugins` 页面[^1]。 3. 在 Marketplace 中搜索 "通义" 并点击安装按钮。 4. 完成安装后重启 IDE 使更改生效。 #### 配置通义服务 成功安装插件之后,还需要配置通义的服务连接信息以便正常使用其提供的各项能力: - 进入设置中的 `Tools | Qwen Coding Assistant` 菜单项[^2]。 - 填写 API Key 和其他必要的认证参数。 - 测试连接以确认配置无误。 #### 使用通义辅助编程 一旦完成上述准备工作,就可以利用通义来进行智能编支持了。具体操作如下所示: ##### 自动补全代片段 当输入部分语句时,IDE 将自动提示可能的后续逻辑,并允许一键插入完整的实现方案[^3]。 ```java // 输入 while 循环条件前半部分... while (!list.isEmpty()) { // 激活建议列表选择合适的循环体内容 } ``` ##### 解释现有代含义 选中某段复杂的表达式或函数调用,右键菜单里会有选项可以请求通义解析这段代的作用以及优化意见。 ##### 生产测试案例 对于已有的业务逻辑模块,借助于通义能够快速生成单元测试框架及初始断言集,减少手动构建的成本。 ```python def test_addition(): result = add(2, 3) assert result == 5, f"Expected 5 but got {result}" ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值