引言: logistic回归中,我们了解到R
2 和P值的计算方法。 但josh starmer老师指出,广义线性模型中R
2 更常见的计算方法还包括饱和模型(参考:Logistic回归:R2与P-value的计算 )。 在Logistic模型中,LL(saturated model)=0,故可以忽略LL(saturated model); 但其在其他类型广义线性模型中并不一定为0,不能忽略LL(saturated model)。
1. 零模型、创建的模型、饱和模型
- 零模型(null model): 含一个参数的模型,也可记作空模型。假设在如下的正态分布数据中,标准差已知,故我们只需要估计均值以拟合该正态分布曲线。仅含1个参数(一个均值)的模型是最简单的模型,故称该模型为零模型。基于零模型的似然值与似然对数值计算如下:似然值=0.03;似然值的对数值=-3.51。似然值和似然值对数值的计算可参考先前的笔记:最大似然估计法拟合logistic回归曲线;概率与似然值。
- 创建的模型(proposed model):在同样的数据中,标准差已知,通过估计2个均值参数拟合两条正态分布曲线的含2个参数的模型。这一模型是我们根据数据的实际情况创建的个性化模型,参数个数介于零模型与饱和模型之间,是我们感兴趣的目标模型。基于该模型的似然值与似然对数值计算如下:似然值=3.57;似然值的对数值=1.27。
- 饱和模型:每个数据点对应一个参数的超级模型,称为饱和模型。该模型所含的参数数量是我们所能估计参数的最大数量。在饱和模型中,似然值与似然对数值计算如下:似然值=1291.5;似然值的对数值=7.16。