R 数据可视化 —— ggplot 基础介绍

最新推荐文章于 2024-07-26 19:18:05 发布

名本无名

最新推荐文章于 2024-07-26 19:18:05 发布

阅读量279

点赞数

分类专栏： R 数据可视化文章标签：信息可视化 r语言

本文链接：https://blog.csdn.net/dxs18459111694/article/details/134455813

版权

R 数据可视化专栏收录该内容

55 篇文章 21 订阅

订阅专栏

前言

讲完数据处理，就要开始将数据可视化了。

在这一部分，我们主要的还是来介绍 tidyvese 家族的包 —— ggplot2。

讲完之后，可能后续还会增加一些其他方面的包，以及基于 ggplot2 的可视化扩展包。

ggplot2 的理论基础是图形图层语法，一个图层应该包含：

数据（必须是数据框）
图形属性映射（定义数据变量如何映射到图形属性）
几何对象（要绘制什么图，如散点图、直方图等）
统计变换（对数据变量进行统计变换后再绘制）
位置调整（避免图形重合）

而一个图形又可以包含很多个图层，一张图可以包含：

一个数据框及数据到图形属性的映射关系
一个或多个图层
标度，控制数据到图形属性映射
坐标系统
分面

创建图形

1. 创建图形对象

首先需要使用 ggplot() 函数来创建图形对象。

该函数有两个重要参数：data 和 mapping，用于定义绘图时使用的数据以及图形属性映射。

这两个参数将会作为整个图形的默认值，可以在每个添加的图层中重新设置对应参数的值，来修改默认数据和图形属性映射关系.

p <- ggplot(diamonds, aes(carat, price, colour=cut))

我们使用 ggplot2 自带的数据 diamonds

创建完图形对象之后，如果不添加图层，是无法显示任何东西的

2. 图层

创建完图形对象之后，我们可以添加图层了，例如，我们添加一个简单的图层，只包含一个几何对象

p + geom_point()

我们使用 + 来添加图层，该图层的数据及图形属性的映射都是创建图形对象时传递的默认值。

3. 数据

ggplot2 要求数据的格式必须是数据框，我们可以使用 %+% 来更改上面传递的默认数据框

p <- ggplot(diamonds, aes(carat, price, colour=cut)) + 
  geom_point()

p %+% transform(diamonds, price = price / 1000)

4. 属性映射

使用 aes() 函数将数据变量映射到图形属性，例如

aes(x=carat, y=price, colour=cut)

上面的代码表示，diamonds 数据框中的 carat 列的数据会被映射到图层的 x 轴，price 列会被映射到 y 轴，cut 列的数据会映射到颜色属性

还可以对变量应用函数。

aes(carat, mean(price), colour=cut)

如果你的列名不是有效的 R 变量名，需要用 `` 符号包裹，如

df <- data.frame(
  "x" = 1:3,
  "a b" = 4:6,
  check.names = FALSE
)
ggplot(df, aes(x, `a b`)) + geom_point()

图形属性映射可以在初始化图形对象时指定，也可以过后使用 + 来修改

p <- ggplot(diamonds, aes(carat, price, colour=cut)) + 
  geom_point()
p + aes(y=depth)

或

ggplot(diamonds, aes(carat, price, colour=cut)) + 
  geom_point(aes(y=depth))

也可以删除一个映射，比如，去掉颜色映射

ggplot(diamonds, aes(carat, price, colour=cut)) +
  geom_point(aes(colour=NULL))

当然，除了将图形属性映射为一个变量，也可以为属性指定一个标量值

ggplot(diamonds, aes(carat, price, colour=cut)) + 
  geom_point(colour='skyblue')

我们将颜色设置为天蓝色

注意：我们没有在 aes() 函数中设置属性值，我们可以看看区别

ggplot(diamonds, aes(carat, price, colour=cut)) + 
  geom_point(aes(colour='skyblue'))

在这里，实际上会先创建一个只含有 "skyblue" 字符串的向量，然后将其映射到 colour 属性。因为这个变量是离散的，所以默认会将颜色标度设置为色轮上等间距的颜色，由因为变量只有一个值，所以返回第一个颜色，桃红色。

5 几何对象

几何对象执行着图形的渲染以及控制图像的类型，例如，点几何对象表示散点图，线几何对象表示折线图。

几何对象都是以 geom 开头，每个几何对象含有不同的参数用于设置图形属性。

6 统计变换

有时，我们想以某种方式对数据进行统计变换，一个统计变换不能改变位置，即 f(x + a) = f(x) + a 且 f(b · x) = b · f(x)

统计变换包括

统计变换可以向原始数据中插入新的变量，例如用于直方图的 stat_bin 统计变换会生成如下三个变量

count：每组中观察值的数目
density：每组的观察值密度
x：组中心位置

这些变量可以直接调用，但是生成的变量名必须用 .. 包裹起来。

这样做可以防止原始数据中的变量与生成变量之间重名，而引起冲突。例如

ggplot(diamonds, aes(x=carat)) +
  geom_histogram(aes(y=..count..), binwidth = 0.1)

7 位置调整

位置调整一般是对图层中元素的位置进行微调，多见于离散型数据中，因为连续型数据很少出现数据完全重叠的问题。

位置调整参数包括：

dodge：并排放置
fill：堆叠元素并将高度标准化为 1
identity：不作调整
jitter：添加随机扰动，避免重合
stack：将元素堆叠起来

我们以条形图来说明

position = "dodge"

ggplot(diamonds, aes(x=carat, group=cut)) +
  geom_histogram(aes(y=..count.., fill=cut), position = "dodge", binwidth = 0.1)

2. position = "fill"

ggplot(diamonds, aes(x=carat, group=cut)) +
  geom_histogram(aes(y=..count.., fill=cut), position = "fill", binwidth = 0.1)

3. position = "stack"

ggplot(diamonds, aes(x=carat, group=cut)) +
  geom_histogram(aes(y=..count.., fill=cut), position = "stack", binwidth = 0.1)

整合

一旦熟悉了上面的图层操作，就可以很容易的画出复杂的图形。

结合几何对象与统计变换

通过将几何对象与不同的统计变换组合，或同一个变换与不同的几何对象组合，可以绘制出一组新颖的图形。

例如，对于一个直方图统计变换 stat_bin

d <- ggplot(diamonds, aes(carat)) + xlim(0, 3)

我们可以使用面积对象

d + stat_bin(aes(ymax = ..count..), binwidth = 0.1, geom = "area")

或点对象

d + stat_bin(
  aes(size = ..density..), binwidth = 0.1,
  geom = "point", position="identity"
)

或瓦片对象（tile）

d + stat_bin2d(
  aes(y=1, fill = ..density..), binwidth = 0.1,
  geom = "tile", position="identity"
)

ggplot2 中有许多对象是基于其他对象衍生出来的，即修改已有对象的默认图形属性或统计变换，也可以称为别名，如下面几个对象

对于某些数据，可能已经统计汇总过了，不再需要进行默认的统计，可以使用 stat_identity()

名本无名

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录