此博客作为自己的学习笔记,同时与大家交流分享!
Toolbox
6.添加误差线和误差范围
所谓的不确定信息(Revealing Uncertainty)也就是误差范围(置信区间),在图形中的展示也很重要。
ggplot2中,四类几何对象可以用于绘制置信区间,这取决于x的值是离散型还是连续型,以及我们是否想展示区间中的中心值:
- 离散型变量+区间:
geom_errorbar()
,geom_linerange()
- 离散型变量+区间+中间值:
geom_crossbar()
,geom_pointrange()
- 连续型变量+区间:
geom_ribbon()
- 连续型变量+区间+中间值:
geom_smooth(stat = "identity")
以上函数默认,我们对给定 x 时 y 的值域和分布情况感兴趣,所以使用了图形属性 ymin
和 ymax
来确定y的值域。来看看下面的例子:
library(ggplot2)
y <- c(18, 11, 16)
df <- data.frame(x = 1:3, y = y, se = c(1.2, 0.5, 1.0))
base <- ggplot(df, aes(x, y, ymin = y - se, ymax = y + se))
base + geom_crossbar()
base + geom_pointrange()
base + geom_smooth(stat = "identity")
base + geom_errorbar()
base + geom_linerange()
base + geom_ribbon()
以上几何对象分别生成以下六副图形:
实际上,添加标准误差线的方法有很多,除此之外也可以通过函数计算模型的置信区间(confidence intervals)
7.加权数据(Weighted Data)
加权数与加权平均数的概念相同,不同于普通的平均数,在加权数的计算中需要考虑每个数据不同的比例权重,统计学中,加权数是为比重不同的数据按照其相应的比例来计算的平均数。
在处理整合数据(aggregated data)的时候,数据的每一行可能代表了多种观测值,这是我们需要通过某种标准/方式把权重变量考虑到其中。
以2000年美国人口普查,东西部各州的统计数据集 midwest
为例。此数据主要包括的是比例型数据(eg. 白种人比例,贫困线下人口比例,大学以上学历人口比例)以及每个地区的信息(面积、人口总数、人口密度等)。
library(ggplot2)
midwest
# A tibble: 437 x 28
PID county state area poptotal popdensity popwhite popblack popamerindian popasian popother
<int> <chr> <chr> <dbl> <int> <dbl> <int> <int> <int> <int> <int>
1 561 ADAMS IL 0.052 66090 1271. 63917 1702 98 249 124
2 562 ALEXA~ IL 0.014 10626 759 7054 3496 19 48 9
3 563 BOND IL 0.022 14991 681. 14477 429 35 16 34
4 564 BOONE IL 0.017 30806 1812. 29344 127 46 150 1139
5 565 BROWN IL 0.018 5836 324. 5264 547 14 5 6
6 566 BUREAU IL 0.05 35688 714. 35157 50 65 195 221
7 567 CALHO~ IL 0.017 5322 313. 5298 1 8 15