极大似然估计求解多项式分布参数

本文作者:合肥工业大学 管理学院 钱洋 email:1563178220@qq.com 内容可能有不到之处,欢迎交流。

未经本人允许禁止转载
#原因
今天晚上,老师在看LDA数学八卦的时候,问我一个问题,如下图所示:

这里写图片描述

这个多项式分布的参数,采用极大估计是怎么求的呢?当时想了想还真不知道,于是在网上找了资料,学习了一下,特此记录。

#公式推导
很多情况下,假定一个变量 X X X k k k个状态,其中 k > 2 k>2 k>2,每个状态假定的可能性为 p 1 , p 2 , ⋯   , p k p_{1},p_{2},\cdots ,p_{k} p1,p2,,pk,且 ∑ i = 1 k p i = 1 \sum _{i=1}^{k}p_{i}=1 i=1kpi=1,独立进行 n n n次实验,用 n 1 , n 2 , ⋯   , n k n_{1},n_{2},\cdots ,n_{k} n1,n2,,nk表示每个状态发生的次数,发生的次数服从多项式分布:
p ( n 1 , n 2 , ⋯   , n k ∣ p 1 , p 2 , ⋯   , p k ) = n ! ∏ i = 1 k n i ! ∏ i = 1 k p i n i p\left ( n_{1},n_{2},\cdots ,n_{k}|p_{1},p_{2},\cdots ,p_{k} \right )=\frac{n!}{\prod _{i=1}^{k}n_{i}!}\prod _{i=1}^{k}p_{i}^{n_{i}} p(n1,n2,,nkp1,p2,,pk)=i=1kni!n!i=1kpini

下面采用极大似然求解:

L ( p 1 , p 2 , ⋯   , p k ) = l o g ( n ! ∏ i = 1 k n i ! ∏ i = 1 k p i n i ) L\left ( p_{1},p_{2},\cdots ,p_{k} \right )=log\left (\frac{n!}{\prod _{i=1}^{k}n_{i}!}\prod _{i=1}^{k}p_{i}^{n_{i}} \right ) L(p1,p2,,pk)=log(i=1kni!n!i=1kpini)
= l o g ( n ! ) − ∑ i = 1 k l o g n k ! + ∑ i = 1 k l o g p k =log\left ( n! \right )-\sum _{i=1}^{k}logn_{k}!+\sum _{i=1}^{k}logp_{k} =log(n!)i=1klognk!+i=1klogpk

对于有约束条件的极值求解问题可使用拉格朗日乘法:
L a g r a n g e ( p 1 , p 2 , ⋯   , p k , λ ) = L ( p 1 , p 2 , ⋯   , p k ) − λ ( ∑ i = 1 k p i − 1 ) Lagrange\left ( p_{1},p_{2},\cdots ,p_{k},\lambda \right )=L\left ( p_{1},p_{2},\cdots ,p_{k} \right )-\lambda\left ( \sum _{i=1}^{k}p_{i}-1 \right ) Lagrange(p1,p2,,pk,λ)=L(p1,p2,,pk)λ(i=1kpi1)

求导(计算梯度):
∂ L a g r a n g e ( p 1 , p 2 , ⋯   , p k , λ ) ∂ p i = n i p i − λ \frac{\partial Lagrange\left ( p_{1},p_{2},\cdots ,p_{k},\lambda \right )}{\partial p_{i}}=\frac{n_{i}}{p_{i} }-\lambda piLagrange(p1,p2,,pk,λ)=piniλ

进而有:
p i = n i λ p_{i}=\frac{n_{i}}{\lambda } pi=λni

由于
∑ i = 1 k n i λ = 1 \sum _{i=1}^{k}\frac{n_{i}}{\lambda }=1 i=1kλni=1

得到:
λ = n \lambda=n λ=n

进而有:
p i ^ = n i n \hat{p_{i}}=\frac{n_{i}}{n} pi^=nni

<think>好的,我现在要帮用户解决关于ARIMA模型中极大似然估计的使用方法和原理的问题。首先,我需要回忆ARIMA模型的基本结构,以及参数估计的一般方法。用户提到了极大似然估计,所以我需要重点放在MLE在ARIMA中的应用。 首先,ARIMA模型包含AR(p)、I(d)、MA(q)三个部分,参数估计主要针对AR和MA部分的系数,以及误差项的方差。极大似然估计是一种常用的参数估计方法,它的核心思想是找到使观测数据出现的概率最大的参数值。 接下来,我需要回顾ARIMA模型的数学形式。假设经过d次差分后,时间序列是平稳的,可以表示为ARMA(p,q)模型: $$ \phi(B)(1-B)^d y_t = \theta(B)\varepsilon_t $$ 其中,$\phi(B)$和$\theta(B)$是滞后算子多项式,$\varepsilon_t$是白噪声。 极大似然估计需要构建似然函数。对于ARMA模型,通常假设误差项服从正态分布,因此联合概率密度函数可以写成各时刻误差项的乘积。但由于ARMA模型的误差项存在自回归和移动平均的结构,直接写出似然函数比较复杂。这时候可能需要用状态空间模型或者条件似然的方法来简化。 具体来说,对于AR部分,可以用条件分布来处理初始值,比如假设前p个观测值是固定的,然后从p+1期开始计算似然。而对于MA部分,可能需要处理初始的误差项,比如设为0或者用其他方法估计。这样,似然函数可以分解为条件正态分布的乘积,进而转化为最小化残差平方和的问题,尤其是在正态假设下,MLE与最小二乘估计有联系。 然后,需要解释MLE的步骤:首先确定模型的阶数p和q,然后通过数值优化方法(如牛顿-拉夫森法)最大化对数似然函数,得到参数估计值。同时,可能需要处理约束条件,比如确保AR和MA多项式的根在单位圆外以保证平稳性和可逆性。 还要考虑信息准则(如AIC、BIC)在模型选择中的作用,这与MLE的关系,因为信息准则通常基于对数似然值,加上对参数数量的惩罚,帮助选择最优模型。 另外,引用中的内容提到拖尾和截尾用于定阶,但用户的问题是关于参数估计,所以可能需要区分模型定阶和参数估计的不同步骤。用户提供的引用[3]提到用信息准则来平衡预测误差和参数个数,这可能与MLE中的模型选择有关。 需要注意的是,ARIMA模型的参数估计通常通过软件实现,用户可能想知道背后的原理而非具体计算步骤。因此,要解释清楚MLE的基本思想、如何构建似然函数、如何处理初始值、优化方法,以及结果的意义(如参数显著性检验)。 可能还需要提到,当模型包含MA部分时,似然函数的计算更为复杂,因为误差项存在滞后,需要考虑整个路径的依赖性。这时可能需要使用精确似然方法,比如通过状态空间模型和卡尔曼滤波来递推计算。 最后,确保回答结构清晰,分点解释原理、步骤、实现要点,并结合引用中的相关内容,如引用[3]和引用[5]提到的信息准则和定阶方法,引用[4]提到的差分和模型应用场景。但用户的问题集中在MLE,所以引用可能需要适当关联,比如在模型选择时结合信息准则。</think>### ARIMA模型中极大似然估计的原理与使用方法 #### 一、基本原理 极大似然估计(MLE)在ARIMA模型中的核心目标是**寻找使观测数据出现概率最大的模型参数**,包括自回归系数($ϕ_1,...,ϕ_p$)、移动平均系数($θ_1,...,θ_q$)和噪声方差($σ^2$)。其数学本质是构建似然函数并求解其最大值[^4]。 对于ARIMA$(p,d,q)$模型,假设差分后序列$y_t'$服从ARMA$(p,q)$模型: $$ ϕ(B)y_t' = θ(B)\varepsilon_t \quad (\varepsilon_t \sim N(0,σ^2)) $$ 其中$B$为滞后算子。在正态性假设下,联合概率密度函数可表示为: $$ L(ϕ,θ,σ^2) = \prod_{t=1}^T \frac{1}{\sqrt{2πσ^2}} \exp\left(-\frac{\varepsilon_t^2}{2σ^2}\right) $$ 取对数后转化为**最小化残差平方和**的问题: $$ \ln L = -\frac{T}{2}\ln(2πσ^2) - \frac{1}{2σ^2}\sum_{t=1}^T \varepsilon_t^2 $$ #### 二、实现步骤 1. **模型定阶** 通过ACF/PACF截尾特性或信息准则(AIC/BIC)确定$p,d,q$值[^3][^5]。例如: - AR$(p)$:PACF在$p$阶后截尾 - MA$(q)$:ACF在$q$阶后截尾 2. **初始化参数** 设定参数初始值,通常采用矩估计或条件最小二乘法初步估算$ϕ,θ$。 3. **构建似然函数** - **精确似然法**:考虑所有历史依赖关系,通过状态空间模型和卡尔曼滤波递推计算 - **条件似然法**:固定前$max(p,q)$个观测值作为初始条件,简化计算 4. **数值优化** 使用牛顿-拉夫森法、BFGS等算法求解: $$ \hat{ϕ},\hat{θ} = \arg\max_{\phi,θ} \ln L $$ 需约束条件保证平稳性(AR根在单位圆外)和可逆性(MA根在单位圆外)[^4]。 5. **方差估计** 最优方差估计为: $$ \hat{σ}^2 = \frac{1}{T} \sum_{t=1}^T \hat{\varepsilon}_t^2 $$ #### 三、关键问题与优化 1. **初始值敏感性** 对短时间序列影响显著,可通过多次随机初始化提升稳定性。 2. **计算复杂度** - AR模型:条件似然法效率较高 - MA模型:需采用精确似然法,计算量随$q$指数增长 3. **软件实现** 主流工具(如Python的`statsmodels`、R的`forecast`)均内置MLE优化过程,示例代码: ```python from statsmodels.tsa.arima.model import ARIMA model = ARIMA(data, order=(p,d,q)) result = model.fit(method='mle') # 使用MLE估计参数 print(result.summary()) ``` #### 四、应用场景 MLE特别适用于**中等长度时间序列**($T>50$),能充分利用数据信息提升预测精度。在金融预测、库存管理等领域广泛应用[^1][^4]。
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值