分类变量分析中的参数p置信区间估计需要注意的点

最新推荐文章于 2023-07-03 16:55:36 发布

littlei416

最新推荐文章于 2023-07-03 16:55:36 发布

阅读量2k

点赞数

本文链接：https://blog.csdn.net/littlei416/article/details/50895495

版权

1.此类问题一般看做二项分布的随机变量

2.对于p的点估计一般做极大似然估计值即样本的频率p_hat

3.WALD统计量：对于p的区间估计当样本量很大时可以将X看做正态分布，由于样本均值的数学期望等于总体均值，方差等于sqrt(sigma^2/n)，sigma^2 = p*(1-p)用样本频率p_hat代替母体参数p得到的区间估计当样本量较小时在p比较小的时候（实验过n=100时置信区间的宽度和n=10的时候的宽度）。n=10的时候，当样本的p_hat很接近0或者1时会产生较大误差。

4.SCORE统计量：这个时候可以选择计算SCORE统计量等于F（1-ALPHA/2），即p_hat - p / sqrt(p*(1-p)/n) = F（1-ALPHA/2），此方程为关于p的一元二次方程，通过解此方程得到p的置信区间

5.通过R语言的二项分布检验得到准确的置信区间