1. 统计变换——生成变量
统计变换内部采用一种数据框的形式作为输入并返回一个数据框,因此统计变换可增加新的变量到原始数据集中。将图形属性映射到这些新的变量上也是有可能的。例如,使用stat_bin来生成直方图,产生下面这些变量
- count,每个组里观察值的数目
- density,每个组里观测值的密度(占整体的百分数/组宽)
- x,每个组里观测值的密度(占整体的百分数/组宽)
这些生成变量(generated variable)可以被直接调用。例如,直方图默认将条形的高度赋值为观测值的频数(count),但是如果更喜欢传统的直方图,可以用密度(density)来代替。为了参考像密度这样的生成变量,名字必须要用“…”围起来。这样可以防治原数据集中的变量和生成变量重名时造成混淆,并且以后处理代码时,可以很清晰地分辨出哪些变量是由统计变换生成地。每个统计变换地帮助文档里都列出了其生成变量的名称
比较下面这两幅图的y轴
ggplot(diamonds, aes(price)) +
geom_histogram(binwidth = 500)
ggplot(diamonds, aes(price)) +
geom_histogram(aes(y = ..density..), binwidth = 500)
尤其是像比较多个有不同尺寸的多个组的分布是,这个技术很有用
例如,比较cut中的price的分布相当困难,因为一些组别的数值很小。但是如果我们标准化每个组别来得到相同的面积的话,就会变得容易比较了
ggplot(diamonds, aes(price, color = cut)) +
geom_freqpoly(binwidth = 500) +
theme(legend.position = "none")
ggplot(diamonds, aes(price, color = cut)) +
geom_freqpoly(aes(y = ..density..), binwidth = 500) +
theme(legend.position = "none")
这个结果很震惊!总体上,低质量钻石更贵。将在移除趋势中重新审视这一结果
2. 位置调整
所谓位置调整,即对该层中的元素位置进行微调
下面三种调整主要应用到条形图中:
- position_stack():在彼此的顶部堆叠重叠的条形图(或面积)
- position_fill():将顶部始终缩放为1,堆叠重复的条形图
- position_dodge():将重叠的条形图并排摆放
dplot <- ggplot(diamonds, aes(color, fill = cut)) +
xlab(NULL) + ylab(NULL) + theme(legend.position = "none")
# 对条形图来说,位置堆叠是默认设置
# 因此 geom_bar()等价于 geom_bar(position = "stack")
dplot + geom_bar()
dplot + geom_bar(position = "fill")
dplot + geom_bar(position = "dodge")
也有一种位置调整什么都不做:position_identity()。同一位置的调整对条形图来说并没有用,因为每个条形图隐藏了后面的条形图,但是有许多几何对象不需要调整,例如,线图
dplot + geom_bar(position = "identity", alpha = 1/2, color = "grey50")
ggplot(diamons, aes(color, color = cut)) +
geom_line(aes(group = cut), stat = "count") +
xlab(NULL) + ylab(NULL) +
theme(legend.position = "none")
三种位置调整对于点图来说特别有用
- position_nudge():按照固定的偏移来移动点
- position_jitter():在每个点上加一个小的随机扰动项
- position_jitterdodge():避开组内的点,然后添加少许随机扰动项
需要注意的是,将参数传递到位置调整和统计变换及几何对象是不同的。与其在省略号中包含额外的参数不同的是,可以创建一个位置调整对象,在调用是提供额外的参数
ggplot(mpg, aes(displ, hwy)) +
geom_point(position = "jitter")
ggplot(mpg, aes(displ, hwy)) +
geom_point(position = position_jitter(width = 0.05, height = 0.5))
这十分啰嗦,所以geom_jitter()提供了一个快捷的方法
ggplot(mpg, aes(displ, hwy)) +
geom_jitter(width = 0.05, height = 0.5)
连续数据往往不会重叠,即使(由于高数据密度而)重叠,也只需要作例如抖动等微调,这对于修复问题来说也是杯水车薪。为此,位置调整对于离散型的数据来说是很有用的