理解赤池信息量(AIC),贝叶斯信息量(BIC)

一、基本概念

模型选择主要有两个思路: 
1.解释性框架 
在已有数据下,重点关注哪些变量是模型的重要变量,模型的形式应该怎样。好的模型应该是最能解释现有数据的模型。 
2.预测性框架 
重点关注哪些变量是模型的潜在变量以及模型的可能形式。好的模型应该是最能预测结果的模型。

AIC: Akaike information criterion,赤池信息量。 
BIC:Bayesian information criterion,贝叶斯信息度量,也叫 SIC, SBC, SC,SBIC。

在选择模型来预测推理时时默认了一个假设,即给定数据下存在一个最佳的模型,且该模型可以通过已有数据估计出来,根据某个选择标准选择出来的模型,用它所做的推理应该是最合理的。这个选择标准就可以是AIC和BIC。没有模型的选择的绝对标准,好的选择标准应该根据数据分布不同而不同,并且要能融入到统计推理的框架中去。

AIC:基于Kullback-Leibler (K-L)信息损失的,provides an asymptotically unbiased estimator of the expected Kullback discrepancy between the generating model and the fitted approximating model [1] 。 
BIC:基于贝叶斯因子。

定义式为: 
AIC=2ln(f(y|θk))2K 。选择模型时选择AIC最大的模型。 
BIC=2ln(f(y|θk))Klog(n) 选择模型时选择BIC最大的模型。

在模型拟合时,增加参数可是使得似然概率增大,但是却引入了额外的变量。AIC和BIC都在目标式中添加了模型参数个数的惩罚项。

二、BIC公式推导

在选择模型时,贝叶斯方法的做法是在给定数据 {yj}nj=1 下最大化模型  (Mi) 的后验概率。 
根据贝叶斯定理,有: 
P(Mi|y1,,yn)=P(y1,,yn|Mi)P(Mi)P(y1,,yn),(1)

其中 P(y1,...,yn|Mi) 是模型的边缘概率,在给定数据 {yj}nj=1 时, P(y1,...,yn) 是固定,且假设在不知道任何数据的情况下各个模型是同样合理的,即 P(Mi) 是定值,于是,最大化后验概率等价于最大化模型的边缘概率。而: 
P(y1,...,yn|Mi)=ΘiL(θi|y1,...,yn)gi(θi)dθi,(2)  
其中, Θi 是模型 Mi 的参数向量, L 是似然函数, gi(θi) 是参数 θi 的概率分布。

在选择模型时,选择后验概率最大的模型,比如有两个模型 M0M1 其后验概率分别为 P(y|M0)P(y|M1) ,通过比较这两个值的大小或者比较 B01(y)=P(y|M0)P(y|M1) 与1的大小,从而确地选择模型0还是1,当它比1大时选择模型 M0 ,比1小时选择模型 M1 B01(y) 被称为贝叶斯因子。可以看到,使用贝叶斯因子方法来选择模型,不需要考虑参数的先验概率(其实是假设了先验相等),这在很多参数先验无法求出时很有用,贝叶斯因子可以比较任意两个模型的好坏。Kass等人1995年证明了在某种情况下,基于BIC的模型选择方法近似等价于基于贝叶斯因子的模型选择方法。贝叶斯因子方法不预测结果,隶属于解释性框架。

更详细的推到见参考文献[1]

三、AIC,BIC比较

AIC和BIC的公式中前半部分是一样的,后半部分是惩罚项,当 n8 时, kln(n)2k ,所以,BIC相比AIC在大数据量时对模型参数惩罚得更多,导致BIC更倾向于选择参数少的简单模型。

[1] Model Selection Lecture V: The Bayesian Information Criterionhttp://myweb.uiowa.edu/cavaaugh/ms_lec_5_ho.pdf

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值