DASI_3 _CI&HT

最新推荐文章于 2024-06-03 08:50:05 发布

Young_Gy

最新推荐文章于 2024-06-03 08:50:05 发布

阅读量932

点赞数

文章标签： DASI

本文链接：https://blog.csdn.net/Young_Gy/article/details/48765409

版权

logic

sampling variability -> central limit theorem -> statistical inference -> confidence intervals & hypothesis tests -> significance & confidence & power
这里写图片描述

sampling variability & CLT

sampling distribution

这里写图片描述
考虑m个sample，每个sample的容量为n。

$mean(\overline{x}) \approx \mu$
$SD(\overline{x}) < \sigma$ ，前者被称为standard error，当n增加的时候，standard error减小。

衡量群体的分散情况用standard deviation
衡量样本值的分布情况，使用standard error

CLT+conditions for CLT

CLT

这里写图片描述

一般来说，如果群体正态分布，那么不论n(sample size)多大，都是符合正态分布的。当非正态也就是偏斜程度增加，需要提高n去保证sample distribution的正态分布。一般来说，n>30即适合。

10% condition

注意：抽样的话应该保证样本的独立性，因此如果是without replacement的取样的话（一般研究都这样），那么样本的数量不应该超过总体数量的10%。
我们喜欢large sample，但是也不能太大了啊。

举个例子，从一个1000人的村子抽人，如果样本是10个的话，那么抽到你和你家人的概率很小。但是如果样本是500个的话，抽到你和家人的概率就很大。这样的话，因为一家人不是相互独立的，所以会对结果造成偏差。

sample size/skew condition

如果样本分布式skew的话，那么随着样本容量n的增大。
样本mean的分布逐渐趋向于正态分布， $mean(\overline{x})$ 逐渐趋向于 $\mu$ ， $SD(\overline{x})$ 逐渐变小。

others

即使知道样本的mean和sd，也不可以根据正态分布的z值计算某个区间的概率。因为群体的分布不一定是正态分布的，解决办法是求出群体的概率密度函数或者分成区间计算histogram。

confidence interval(for a mean)

这里写图片描述

what is it

这里写图片描述
使用置信区间可以更好的捕捉到population parameter，比使用单个参数的效果好。

逻辑：
我们知道sample parameter的分布是符合正态分布的，也就是说根据68-95-99.7准则，我们有95%的置信率，保证我们所选取的样本的参数是在两个sd内的。因此在样本参数的基础上，加减两个sd，便有95%的可能性保证群体的参数落在这个区间。

conditions

It’s connected to the CLM.

CI是建立在CLM的基础上。因此两者的适用条件有相似的地方。但是，对样本集的大小，CI要求更为严格。

finding and interpreting

qnorm()
pnorm()

accuracy vs. precision

accuracy：CI是否包括了population parameter
precision：CI的宽度

这两个，通常是矛盾的。

confidence level

confidence level的含义是：根据CLM，sample parameter的分布是正态的。所以假设我们取了很多的样本，对每个样本都计算95%的CI。那么，在所取的样本中，大约只有95%的样本落在了2个se内，因此用95%CI估计的区间，大约只有95%的区间包括了population parameter。
简单来说，CI就是我们的confidence internal包括群体参数的概率。

CI是关于群体的，不是关于个人的，也不是关于样本的。