ggplot2-用图层构建图像4

最新推荐文章于 2024-09-24 19:24:32 发布

TANGLi83

最新推荐文章于 2024-09-24 19:24:32 发布

阅读量725

点赞数

文章标签： r语言开发语言 ggplot2

本文链接：https://blog.csdn.net/Arkardia/article/details/121810344

版权

本文介绍了统计变换如何在数据可视化中生成新变量，如直方图中的count、density，以及位置调整在条形图和点图中的应用，如position_stack、position_fill和position_dodge。通过实例展示了如何使用这些技巧进行更有深度的数据比较和可视化。

摘要由CSDN通过智能技术生成

1. 统计变换——生成变量

统计变换内部采用一种数据框的形式作为输入并返回一个数据框，因此统计变换可增加新的变量到原始数据集中。将图形属性映射到这些新的变量上也是有可能的。例如，使用stat_bin来生成直方图，产生下面这些变量

count，每个组里观察值的数目
density，每个组里观测值的密度（占整体的百分数/组宽）
x，每个组里观测值的密度（占整体的百分数/组宽）

这些生成变量（generated variable）可以被直接调用。例如，直方图默认将条形的高度赋值为观测值的频数（count），但是如果更喜欢传统的直方图，可以用密度（density）来代替。为了参考像密度这样的生成变量，名字必须要用“…”围起来。这样可以防治原数据集中的变量和生成变量重名时造成混淆，并且以后处理代码时，可以很清晰地分辨出哪些变量是由统计变换生成地。每个统计变换地帮助文档里都列出了其生成变量的名称

比较下面这两幅图的y轴

ggplot(diamonds, aes(price)) +
	geom_histogram(binwidth = 500)

ggplot(diamonds, aes(price)) +
	geom_histogram(aes(y = ..density..), binwidth = 500)

在这里插入图片描述

尤其是像比较多个有不同尺寸的多个组的分布是，这个技术很有用
例如，比较cut中的price的分布相当困难，因为一些组别的数值很小。但是如果我们标准化每个组别来得到相同的面积的话，就会变得容易比较了

ggplot(diamonds, aes(price, color = cut)) +
	geom_freqpoly(binwidth = 500) +
	theme(legend.position = "none")

ggplot(diamonds, aes(price, color = cut)) +
	geom_freqpoly(aes(y = ..density..), binwidth = 500) +
	theme(legend.position = "none")

在这里插入图片描述

这个结果很震惊！总体上，低质量钻石更贵。将在移除趋势中重新审视这一结果

2. 位置调整

所谓位置调整，即对该层中的元素位置进行微调
下面三种调整主要应用到条形图中：

position_stack()：在彼此的顶部堆叠重叠的条形图（或面积）
position_fill()：将顶部始终缩放为1，堆叠重复的条形图
position_dodge()：将重叠的条形图并排摆放

dplot <- ggplot(diamonds, aes(color, fill = cut)) +
	xlab(NULL) + ylab(NULL) + theme(legend.position = "none")

# 对条形图来说，位置堆叠是默认设置
# 因此 geom_bar()等价于 geom_bar(position = "stack")
dplot + geom_bar()

dplot + geom_bar(position = "fill")

dplot + geom_bar(position = "dodge")

在这里插入图片描述

也有一种位置调整什么都不做：position_identity()。同一位置的调整对条形图来说并没有用，因为每个条形图隐藏了后面的条形图，但是有许多几何对象不需要调整，例如，线图

dplot + geom_bar(position = "identity", alpha = 1/2, color = "grey50")

ggplot(diamons, aes(color, color = cut)) +
	geom_line(aes(group = cut), stat = "count") +
	xlab(NULL) + ylab(NULL) +
	theme(legend.position = "none")

在这里插入图片描述

三种位置调整对于点图来说特别有用

position_nudge()：按照固定的偏移来移动点
position_jitter()：在每个点上加一个小的随机扰动项
position_jitterdodge()：避开组内的点，然后添加少许随机扰动项

需要注意的是，将参数传递到位置调整和统计变换及几何对象是不同的。与其在省略号中包含额外的参数不同的是，可以创建一个位置调整对象，在调用是提供额外的参数

ggplot(mpg, aes(displ, hwy)) +
	geom_point(position = "jitter")

ggplot(mpg, aes(displ, hwy)) +
	geom_point(position = position_jitter(width = 0.05, height = 0.5))

在这里插入图片描述

这十分啰嗦，所以geom_jitter()提供了一个快捷的方法

ggplot(mpg, aes(displ, hwy)) +
	geom_jitter(width = 0.05, height = 0.5)

在这里插入图片描述

连续数据往往不会重叠，即使（由于高数据密度而）重叠，也只需要作例如抖动等微调，这对于修复问题来说也是杯水车薪。为此，位置调整对于离散型的数据来说是很有用的

TANGLi83

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫