ggplot2-用图层构建图像4

本文介绍了统计变换如何在数据可视化中生成新变量,如直方图中的count、density,以及位置调整在条形图和点图中的应用,如position_stack、position_fill和position_dodge。通过实例展示了如何使用这些技巧进行更有深度的数据比较和可视化。
摘要由CSDN通过智能技术生成

1. 统计变换——生成变量

统计变换内部采用一种数据框的形式作为输入并返回一个数据框,因此统计变换可增加新的变量到原始数据集中。将图形属性映射到这些新的变量上也是有可能的。例如,使用stat_bin来生成直方图,产生下面这些变量

  1. count,每个组里观察值的数目
  2. density,每个组里观测值的密度(占整体的百分数/组宽)
  3. x,每个组里观测值的密度(占整体的百分数/组宽)

这些生成变量(generated variable)可以被直接调用。例如,直方图默认将条形的高度赋值为观测值的频数(count),但是如果更喜欢传统的直方图,可以用密度(density)来代替。为了参考像密度这样的生成变量,名字必须要用“…”围起来。这样可以防治原数据集中的变量和生成变量重名时造成混淆,并且以后处理代码时,可以很清晰地分辨出哪些变量是由统计变换生成地。每个统计变换地帮助文档里都列出了其生成变量的名称

比较下面这两幅图的y轴

ggplot(diamonds, aes(price)) +
	geom_histogram(binwidth = 500)

ggplot(diamonds, aes(price)) +
	geom_histogram(aes(y = ..density..), binwidth = 500)

在这里插入图片描述

在这里插入图片描述

尤其是像比较多个有不同尺寸的多个组的分布是,这个技术很有用
例如,比较cut中的price的分布相当困难,因为一些组别的数值很小。但是如果我们标准化每个组别来得到相同的面积的话,就会变得容易比较了

ggplot(diamonds, aes(price, color = cut)) +
	geom_freqpoly(binwidth = 500) +
	theme(legend.position = "none")

ggplot(diamonds, aes(price, color = cut)) +
	geom_freqpoly(aes(y = ..density..), binwidth = 500) +
	theme(legend.position = "none")

在这里插入图片描述

在这里插入图片描述

这个结果很震惊!总体上,低质量钻石更贵。将在移除趋势中重新审视这一结果

2. 位置调整

所谓位置调整,即对该层中的元素位置进行微调
下面三种调整主要应用到条形图中:

  1. position_stack():在彼此的顶部堆叠重叠的条形图(或面积)
  2. position_fill():将顶部始终缩放为1,堆叠重复的条形图
  3. position_dodge():将重叠的条形图并排摆放
dplot <- ggplot(diamonds, aes(color, fill = cut)) +
	xlab(NULL) + ylab(NULL) + theme(legend.position = "none")

# 对条形图来说,位置堆叠是默认设置
# 因此 geom_bar()等价于 geom_bar(position = "stack")
dplot + geom_bar()

dplot + geom_bar(position = "fill")

dplot + geom_bar(position = "dodge")

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

也有一种位置调整什么都不做:position_identity()。同一位置的调整对条形图来说并没有用,因为每个条形图隐藏了后面的条形图,但是有许多几何对象不需要调整,例如,线图

dplot + geom_bar(position = "identity", alpha = 1/2, color = "grey50")

ggplot(diamons, aes(color, color = cut)) +
	geom_line(aes(group = cut), stat = "count") +
	xlab(NULL) + ylab(NULL) +
	theme(legend.position = "none")

在这里插入图片描述

在这里插入图片描述

三种位置调整对于点图来说特别有用

  1. position_nudge():按照固定的偏移来移动点
  2. position_jitter():在每个点上加一个小的随机扰动项
  3. position_jitterdodge():避开组内的点,然后添加少许随机扰动项

需要注意的是,将参数传递到位置调整和统计变换及几何对象是不同的。与其在省略号中包含额外的参数不同的是,可以创建一个位置调整对象,在调用是提供额外的参数

ggplot(mpg, aes(displ, hwy)) +
	geom_point(position = "jitter")

ggplot(mpg, aes(displ, hwy)) +
	geom_point(position = position_jitter(width = 0.05, height = 0.5))

在这里插入图片描述

在这里插入图片描述

这十分啰嗦,所以geom_jitter()提供了一个快捷的方法

ggplot(mpg, aes(displ, hwy)) +
	geom_jitter(width = 0.05, height = 0.5)

在这里插入图片描述

连续数据往往不会重叠,即使(由于高数据密度而)重叠,也只需要作例如抖动等微调,这对于修复问题来说也是杯水车薪。为此,位置调整对于离散型的数据来说是很有用的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值