AIC信息
假设
f
f
为可以反映真实情况的理想模型,为用来近似真实情况的模型。两个模型见的
Kullback−Leibler
K
u
l
l
b
a
c
k
−
L
e
i
b
l
e
r
信息距离(
K−L
K
−
L
距离)是指有模型
g
g
来近似所带来的信息损失。简称
g
g
到的距离,
K−L
K
−
L
距离由式
(1)
(
1
)
表示。
g
g
到的
K−L
K
−
L
距离越小,则代表模型
g
g
越好。整理式可知,
K−L
K
−
L
距离可以由两个
f
f
的期望来表示,其中,第一个期望是仅与未知的真实集相关的定值。
则可以定义相对 K−L K − L 距离,比较不用模型 g g 的相对距离大小,同样可以对模型优劣程度做比较
相对于 K−L K − L 距离在实际模型比较重仍然不适用,因为相对 K−L K − L 距离的计算依赖于真实集 f f ,提出了一种估计 K−L K − L 距离的特定方法。给定一个模型形式 g g ,存在一个特定模型参数,使得 g g 到的 K−L K − L 距离最小。这个特定的模型参数 θ0 θ 0 依赖于真实集 f f ,模型形式,以及样本集 x x 。所以,提出用极大似然估计出的 θ^ θ ^ 来估计 θ0 θ 0 ,则模型挑选准则从相对 K−L K − L 距离的比较进一步转化成对期望估计的 K−L K − L 距离的比较:
Akaike A k a i k e 发现这个 K−L K − L 距离的估计在实际情况中,存在过估计,过估计的量近似等于需要估计的模型参数个数 K+1 K + 1 。即
因此, Akaike A k a i k e 定义了期望相对 K−L K − L 距离来作为模型挑选的准则,称为 Akaike A k a i k e 信息准则 (Akaike′sinformationCriterion,AIC) ( A k a i k e ′ s i n f o r m a t i o n C r i t e r i o n , A I C ) ,即:
特别的,用最小二乘法估计的方法简化上式,则 AIC A I C 可进一步表示为:
式中, σ^2 σ ^ 2 是 σ2 σ 2 的极大似然估计; n n 为样本大小;为残差平方和。