aic信息准则想通过模型输出分布f与实际分布g的KL散度衡量一个模型的好坏。
所以决定两个同任务下模型KL差异的只有模型预测值的信息期望(其实就是交叉熵)
实际情况下,这个期望只能用测试集的似然来蒙特卡洛近似,但这个近似不是无偏估计,相差了b
b实际上等于k,即模型参数量,下面进行证明
首先是几个符号约定和权重为高斯分布的假设
在驻点处I与J互为相反数
这个结论后面会用到
之后对权重的熵和模型预测似然进行泰勒展开近似
然后将b分割,分别计算
aic信息准则想通过模型输出分布f与实际分布g的KL散度衡量一个模型的好坏。
所以决定两个同任务下模型KL差异的只有模型预测值的信息期望(其实就是交叉熵)
实际情况下,这个期望只能用测试集的似然来蒙特卡洛近似,但这个近似不是无偏估计,相差了b
b实际上等于k,即模型参数量,下面进行证明
首先是几个符号约定和权重为高斯分布的假设
在驻点处I与J互为相反数
这个结论后面会用到
之后对权重的熵和模型预测似然进行泰勒展开近似
然后将b分割,分别计算