这是之前发在个人公众号上的文章,希望能对读者有帮助。
今天我们谈谈置信区间,可能很多初学者看到置信区间感觉都看不懂,因为书上并没有直接定义置信区间,只说了什么是95%的置信区间,而且说的也很费解,对95%的置信区间的定义是如果不断重复该实验并计算置信区间,在所有计算出来的置信区间中,约有95%的置信区间包含真值。
那我反过来问大家一个问题,如果我们只构造一个95%的置信区间,那么这个区间是不是有95%的概率包含真值?
不卖关子,这种说法是错误的。那么书上的定义和我这种说法的区别在哪里呢?这得从统计学的两个学派讲起。
统计学其实有两个学派,一个是频率学派,一个是贝叶斯学派。大部分的非统计专业的本科统计教材都只讲了频率学派的思想,我们看到的张厚粲老师的教材也是完全按照频率学派的逻辑编写的。
在这里我先不提贝叶斯学派,只提频率学派。在频率学派眼里,总体的真值只有一个,是一个固定值,我们所做的就是想尽办法用我们样本值尽可能准确地去估计我们的总体值,比如我们找了30个男生,发现他们平均身高175,我们就说所有男生的