对于已知的总体,可以用一下命令得到分布情况
data(ames)
ggplot(data = ames, aes(x = area)) +
geom_histogram(binwidth = 250)
然而在实际情况中,很少能得到一个总体的全部数据,通常利用样本来估计总体,一下是随机取样的命令,取样一个名字为samp1的,样本容量为50的样本。
samp1 <- ames %>%
sample_n(size = 50)
得到样本的分布图,可以与总体的做对比
ggplot(data = samp1, aes(x = area)) +
geom_histogram(binwidth = 250)
根据取样的样本,我们得到了样本均值,样本均值可以估计出总体均值,一般情况下,样本容量越大,估计的越准确
samp1 %>%
summarise(x_bar = mean(area))
用rep_sample_n,我们可以得到15000个样本容量为50的样本,并且得到15000个样本均值,进而画出各个样本均值的分布图。
sample_means50 <- ames %>%
rep_sample_n(size = 50, reps = 15000, replace = TRUE) %>%
summarise(x_bar = mean(area))
ggplot(data = sample_means50, aes(x = x_bar)) +
geom_histogram(binwidth = 20)