Statistics with R-Inferential statistics-Week 1-Foundations for inference - Sampling distributions

最新推荐文章于 2020-12-08 07:39:23 发布

羊shy

最新推荐文章于 2020-12-08 07:39:23 发布

阅读量196

点赞数

本文链接：https://blog.csdn.net/weixin_41808937/article/details/81195773

版权

对于已知的总体，可以用一下命令得到分布情况

data(ames)
ggplot(data = ames, aes(x = area)) +
  geom_histogram(binwidth = 250)

然而在实际情况中，很少能得到一个总体的全部数据，通常利用样本来估计总体，一下是随机取样的命令，取样一个名字为samp1的，样本容量为50的样本。

samp1 <- ames %>%
  sample_n(size = 50)

得到样本的分布图，可以与总体的做对比

ggplot(data = samp1, aes(x = area)) +
  geom_histogram(binwidth = 250)

根据取样的样本，我们得到了样本均值，样本均值可以估计出总体均值，一般情况下，样本容量越大，估计的越准确

samp1 %>%
  summarise(x_bar = mean(area))

用rep_sample_n，我们可以得到15000个样本容量为50的样本，并且得到15000个样本均值，进而画出各个样本均值的分布图。

sample_means50 <- ames %>%
                    rep_sample_n(size = 50, reps = 15000, replace = TRUE) %>%
                    summarise(x_bar = mean(area))

ggplot(data = sample_means50, aes(x = x_bar)) +
  geom_histogram(binwidth = 20)

羊shy

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫