置信度与置信区间
点估计
用样本统计量来估计总体参数,因为样本统计量为数轴上某一点值,估计的结果也以一个点的数值表示
点估计方法:
- 用样本均值估计总体均值
- 用样本方差估计总体方差
- 用样本的分位数估计总体的分位数
- 用样本的中位数估计总体的中位数
区间估计与置信区间
使用一个范围对一件事进行估计的方法就是区间估计,得出的区间就是置信区间
置信度
置信区间展现的是参数的真实值有一定概率落在测量结果的周围的程度,这个概率被称为置信度
置信度和置信区间一般是相同趋势,当置信度很高时,置信区间也很大,当置信区间很大时,置信度也会很高
如何计算置信区间
- 确认问题需求
- 求样本的平均值与标准误差
标准误差与标准差的区别:标准差反映了整个样本相对平均数的离散程度,标准误差反应的是样本平均数对总体平均数的变异程度
- 确定需要的置信度
- 查Z表,求Z值
置信度 | 公式 | Z值 |
---|---|---|
68% | μ ± σ | |
90% | 1.64 | |
95% | μ ± 2σ | 1.96 |
99% | μ ± 3σ | 2.58 |
- 计算置信区间
a = 样本均值 - z*标准误差
a = Xbar - z*σ
b = 样本均值 - z*标准误差b = Xbar + z*σ
BootStrap是什么
当数据不服从正态分布,或未知是否服从时,使用BootStrap抽样法
BootStrap抽样法:即对样本进行有放回的抽样,抽样若干次,每次抽样的结果作为一个样本点,则得到的结果大概率时服从正态分布的
假设检验
假设检验的核心其实就是反证法。
即要证明一个结论是正确的,先假设该结论是错误的,以该假设为前提进行推理,推理结果与假设条件矛盾,就说明这个假设是错误的,即该结论是正确的。
淑女茶品(Lady testing tea)是一个有关假设检验的著名例子,费雪的一个女同事声称可以判断在奶茶中,是先加入茶还是先加入牛奶。费雪提议给她八杯奶茶。女同事已知其中四杯先加茶,四杯先加牛奶,但随机排列,而女同事要说出这八杯奶茶中,哪些先加牛奶,哪些先加茶,检验统计量(英语:Test statistic)是确认正确的次数。零假设是女同事无法判断奶茶中的茶先加入还是牛奶先加入,对立假设为女同事有此能力。
若单纯以几率考虑(即女同事没有判断的能力)下,八杯都正确的几率为1/70,约1.4%,因此“拒绝域”为八杯的结果都正确。而测试结果为女同事八杯的结果都正确[3],在统计上是相当显著的的结果。
假设检验步骤
- 提出零假设和备择假设
零假设(H0):要推翻的论点
备择假设(H1):要验证的论点
- 构造检验统计量,并找出在H0假设成立的前提下,该统计量所服从的分布;