入门 ggplot2 的图形语法

前言

作者:安建才 

知乎:https://www.zhihu.com/people/an-jian-cai-69/pins/posts

欢迎关注支持!

ggplot2 包是 Hadly Wickham 开发(除 ggplot2 外,还有 plyr 和 reshape2 包)的一款通过 “+”,以图层叠加的搭配组合,易于实现数据可视化的 R 包。ggplot2 以美轮美奂的统计制图能力位居各类绘图软件排名前列,同时此包功能也在增加。此文简单介绍 ggplot2 的基本原理和操作,便于大家对 ggplot2 快速入门。

ggplot() 作为泛型函数(gplot() 能快速作图,却不是泛型函数),能对任意类型的 R 对象进行可视化操作,这是 ggplot2 的精髓所在。

在 Hadly 的 ggplot2 官方文档中,Hadely 这样对 Wilkinson 的图形语法进行了描述:“一张统计图形就是从数据到集合对象(geometric object, 缩写为 geom,包括点、线、条形等)的图形属性(aesthetic attributes, 缩写为 aes, 包括颜色、形状、大小等)的一个映射。此外,图形中还可能包含数据的统计变换(statistical transformation, 缩写为 stat),最后绘制在某个特定的坐标系(coordinate system, 缩写为 coord)中,而分面(facet, 指将绘图窗口划分为若干个子窗口)则可以用来生成数据中不同子集的图形。” 因此,在 ggplot2 中,图形语法中至少包括了如下几个图形部件:

1、  数据(data)

2、  映射(mapping)

3、  几何对象(geom)

4、  统计变换(stat)

5、  坐标系(coord)

6、  分面(facet)

7、  标度(scale)

这些组件之间用 “+”,以图层(layer)的方式来粘合构图的,所以图层是 ggplot2 中一个重要的概念;在掌握基本的图形部件基础上,要完成一幅高质量的统计绘图,仍然需要其他图形部件来进一步扩展,这包括了:

8、  主题(theme)

9、  位置(position)

10、存储和输出

接下来将对上述概念展开讲述


数据(data)

1、在 ggplot2 中,所接受的数据集必须为数据框(data.frame)格式。

如内置的 mtcars 数据集:head(mtcars)

2、这种数据框的格式好处是数据易于存储,也能保留原有的绘图参数下,用 %+% 方便地变更已有数据集。如:

library(ggplot2)
p <- ggplot(mtcars,aes(mpg,wt,colour=cyl))+geom_point()
p

mtcarsc <- transform(mtcars,mpg = mpg^2)
p %+% mtcarsc

3、 ggplot2 进行数据分组时必须根据行, 而不能根据列。 例如在 mtcars 的数据集中, 可以把汽车按汽缸数进行分组, 但不能按汽车的档位数和汽缸数这两个变量分为两组。这要求把 “宽” 数据转化为 “长” 数据。所谓的长数据是变量不在是放在各个列上, 而是排成一列, 每一个变量都分别占其中的几行, 这样就能方便的对每个变量进行分组。reshape2中 melt() 和 cast() 能够灵活的融合 (melt) 和重铸 (cast) 在数据框中的数据。如:

library(reshape2)
mtcarsm <- melt(mtcars, id = c("mpg","disp","hp","drat","wt","qsec","vs","carb"))
head(mtcarsm)


映射(mapping)

1、 概念

aes() 函数是 ggplot2 中的映射函数, 所谓的映射即为数据集中的数据关联到相应的图形属性过程中一种对应关系, 如:

p1 <- ggplot(data = mtcars)
summary(p1)

p2 <- ggplot(data = mtcars, mapping = aes(x = wt, y = hp, color = gear))
summary(p2)

发现, 在 p2 中, 通过 aes() 指定了横纵坐标分别为 wt 和 hp、 颜色为 gear 这三种图形属性。 在 ggplot2 中不同的几何对象对应着不同的图形属性。

2、  设定和映射

映射是将一个变量中离散或连续的数据与一个图形属性中以不同的参数来相互关联, 而设定能够将这个变量中所有的数据统一为一个图形属性。如:

p <- ggplot(mtcars, aes(wt, mpg))
#设定散点的颜色为蓝色
p + geom_point(color = "blue")

3、 分组(group)

分组也是 ggplot2 种映射关系的一种, 默认情况下 ggplot2 把所有观测点分为了一组, 如果需要把观测点按额外的离散变量进行分组处理, 必须修改默认的分组设置。

p3 <- ggplot(data = mtcars, mapping = aes(x = wt, y = hp)) + geom_line()
p3

p4 <- ggplot(data = mtcars, mapping = aes(x = wt, y = hp, group = factor(gear))) + geom_line()
p4


几何对象 (geom) 和统计变换 (stat)

几何对象执行着图层的实际渲染, 控制着生成的图像类型。例如用 geom_point() 将会生成散点图, 而 geom_line 会生成折线图。几何对象如下:

具体应用如:

p <- ggplot(mtcars, aes(wt, mpg))
p + geom_point()

#更改颜色-连续变量
p + geom_point(aes(color = qsec))

#更改颜色-离散变量
p + geom_point(aes(color = factor(gear)))

#更改透明度
p + geom_point(aes(alpha = qsec))

#更改形状
p + geom_point(aes(shape = factor(gear)))

#更改点大小
p + geom_point(aes(size = qsec))

#两种颜色的叠加
p + geom_point(color = "grey50", size = 5) + geom_point(aes(color = qsec), size = 4)

#颜色和形状的叠加
p +geom_point(color = "grey50", size = 5) + geom_point(aes(shape = factor(gear)), size = 3)

统计变换即对数据进行统计变化, 通常以某种方式对数据信息进行汇总, 例如通过 stat_smooth() 添加光滑曲线。统计对象如下:

每一个几何对象都有一个默认的统计变换并且每一个统计变换都有一个默认的几何对象。正因如此这一设定将会使绘图过程变的灵活多变。

具体应用如:

m <- ggplot(mtcars, aes(qsec, wt))
m + stat_smooth() + geom_point()

#取消默认的置信区间
m + stat_smooth(se = FALSE) + geom_point()

#更改置信区间和线条颜色
m + stat_smooth(fill = "red", size = 2, alpha = 0.5, color = "green") + geom_point()

#用一元一次线性方程拟合
m + stat_smooth(method = "lm") + geom_point()

#使用一元二次方程拟合
m + stat_smooth(method = "lm", formula = y ~ poly(x, 3)) + geom_point()

#按cyl这个离散变量进行分组, 分别拟合数据m <- ggplot(mtcars, aes(y = wt, x = mpg, group = factor(cyl)))
m + stat_smooth(method = lm, aes(color = factor(cyl), fill = factor(cyl))) + geom_point( aes(color = factor(cyl)))


图层(layer)

在上述对数据和映射的讲解中, 已经采用过”+” 来添加图层,可以这样理解 ggplot2 中的图层:每个图层可以代表一个图形组件, 如已经介绍的几何对象、统计变换等图形组件, 这些组件以图层的方式叠加在一起构成一个绘图的整体;在每个图层中的图形组件又可以分别设定数据、映射或其他相关参数, 因此组件之间又是具有相对独立性的。ggplot2 中图层的设定是十分成功的, 因为这一过程是如此实用、方便而富有逻辑性。

在几何对象中设定映射

前面已在 ggplot() 中设定了映射了关系, 这种映射关系是默认的, 我们可以在后面的几何对象中沿用已设定的默认映射关系, 也可以随时在几何对象中进行更改。

#设定默认的映射关系
p <- ggplot(mtcars, aes(x = mpg, y = wt, color = factor(gear)))
#沿用默认的映射关系来绘制散点图
p + geom_point()

#添加图层中的shape的映射关系
p + geom_point(aes(shape = factor(carb)))

#修改默认的y的映射关系, 注意图中y轴名称仍然以默认的wt表示
p + geom_point(aes(y = carb))

#删除默认的color映射关系
p + geom_point(aes(color = NULL))


分面 (facet)

即在一个页面上自动摆放多幅图形, 这一过程先将数据划分为多个子集, 然后将每个子集依次绘制到页面的不同面板中。ggplot2 提供两种分面类型:网格型 (facet_grid) 和封面型 (facet_wrap)网格分面生成的是一个 2 维的面板网格, 面板的行与列通过变量来定义, 本质是 2 维的; 封装分面则先生成一个 1 维的面板条块, 然后再分装到 2 维中, 本质是 1 维的。分面函数如下:

在很多情况下, 我们可能需要绘制有两个 y 轴的坐标系, 而在 ggplot2 中, 这种做法特别不提倡, 可解决的方法要么是把变量归一化, 要么便是采用分面方法。如:

p <- ggplot(mtcars, aes(mpg, wt)) + geom_point()
#以cyl为分类变量
p + facet_grid(. ~ cyl)

#wrap与grid的区别
p + facet_wrap( ~ cyl, nrow = 3)

p + facet_wrap( ~ cyl, ncol = 3)

p <- p + geom_smooth(method = "lm", se =F, aes(color = factor(cyl))) + geom_point(aes(color = factor(cyl)))
p + facet_grid(vs ~ am)


主题 (theme)

主题系统控制着图形中的非数据元素外观, 它不会影响几何对象和标度等数据元素。主题修改是一个对绘图精雕细琢的过程, 主要对标题、坐标轴标签、图例标签文字调整, 以及网格线、背景、轴须的颜色搭配。


标度 (scale)

标度控制着数据到图形属性的映射, 更重要的一点是标度将我们的数据转化为视觉上可以感知的东西, 如大小、颜色、位置和形状。所以通过标度可以修改坐标轴和图例的参数。标度函数如下:

位置函数

坐标系函数

经过以上过程讲述,对 ggplot2 中的图形语法有了基本了解,根据绘制图形的效果可进行相对应的调参。

参考文章:

ggplot2 入门与进阶:http://www.cellyse.com/how_to_use_gggplot2_part1/

R--ggplot2 包介绍学习:http://www.cnblogs.com/nxld/p/6059603.html


  • 3
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
### 回答1: 学习 R 语言的 ggplot2 语法的方法有很多,下面是一些建议: 1. 首先,可以阅读 ggplot2 官方文档,了解 ggplot2 的基本概念和使用方法。官方文档链接:https://ggplot2.tidyverse.org/ 2. 可以在网上搜索 ggplot2 教程,找到适合自己的学习方式。一些可以参考的资源包括: - R 语言中文社区(https://www.r-project.org.cn/)上的 ggplot2 教程:https://www.r-project.org.cn/document/r-tutor/r-tutor-ggplot2.html - 菜鸟教程(https://www.runoob.com/)上的 ggplot2 教程:https://www.runoob.com/r/r-ggplot2-intro.html - 还有一些博客、论坛等网站上的 ggplot2 教程,如:https://www.cnblogs.com/datageek/p/10840165.html 3. 可以尝试自己动手练习,使用 ggplot2 绘图。一些可以参考的练习题目包括: - 绘制简单的直方图、饼图等 - 绘制多变量数据的散点图、条形图等 - 绘制分组数据的折线图、箱线图等 4. 可以加入一些学习群或论坛,和其他学习者交流学习心得。 希望这些建议能帮助你学习 ggplot2 语法。 ### 回答2: 学习R语言ggplot2语法可以通过以下几个步骤进行: 1. 了解ggplot2的基本概念:ggplot2R语言中用于数据可视化的一个包,它基于“图层”和“映射”的思想进行数据绘图。在开始学习ggplot2之前,先了解它的核心概念和基本原理是非常重要的。 2. 学习ggplot2的基本语法ggplot2语法相对简洁直观,通过使用“+”符号来逐步构建图形。学习ggplot2语法包括了解如何在图层中添加数据、映射、几何对象、标度、分面等元素。 3. 掌握ggplot2的常用函数:ggplot2有许多常用的函数,如qplot()、ggplot()、aes()等。这些函数可以用来创建一个基础图形、设置绘图参数、进行数据映射等。学习这些常用函数能够帮助我们更好地理解和使用ggplot2。 4. 阅读相关文档和示例:ggplot2有丰富的文档和示例,可以从ggplot2官方文档或书籍中找到学习资源。阅读这些文档和示例能够帮助我们更深入地了解ggplot2的各种功能和用法。 5. 练习和实践:学习ggplot2语法最重要的一点是不断练习和实践。通过自己动手编写代码、绘制图形,探索和尝试不同的参数和选项,可以逐渐掌握ggplot2语法和技巧。 总之,学习ggplot2语法需要通过了解基本概念、学习基本语法、掌握常用函数、阅读文档和示例,并进行实践和练习。通过不断的学习和实践,我们可以逐步掌握并熟练运用ggplot2语法,从而能够更好地进行数据可视化。 ### 回答3: 学习R语言ggplot2语法需要按照以下步骤进行: 1. 了解ggplot2的基本概念和原理。ggplot2是一个用于数据可视化的R包,其基于图层(layer)的概念,可以通过逐渐添加图层来构建复杂的图形。理解图层的概念对于学习ggplot2语法非常重要。 2. 学习ggplot2的基本语法ggplot2语法基于“+”符号,通过逐步组合不同的图层和美学映射(aesthetic mappings)来构建图形。掌握基本的语法结构,包括ggplot()函数、aes()函数和geom_*()函数,是学习ggplot2的关键。 3. 阅读官方文档和教程。ggplot2官方文档提供了详细的介绍和示例,可以通过查看文档来学习不同的图层和美学映射的用法。此外,还有许多在线教程和书籍可供参考,例如《ggplot2: Elegant Graphics for Data Analysis》。 4. 练习绘制图形。学习ggplot2最好的方式是进行实践。可以通过使用现有的数据集或者自己创建数据集来练习绘制图形。不断尝试不同的图层和美学映射,探索不同的图形效果和展示方式。 5. 参考其他人的代码和作品。通过查看其他人的ggplot2代码和图形作品,可以学习到更多实际应用的技巧和经验。可以在GitHub上搜索ggplot2相关的项目和资源,也可以参加R语言社区的讨论和交流。 总之,要学习R语言ggplot2语法,需要理解ggplot2的基本概念和语法结构,阅读官方文档和教程,进行实践练习,并参考其他人的代码和作品。通过不断的学习和实践,就可以掌握ggplot2语法,从而能够使用ggplot2创建出美观且富有表达力的数据可视化图形

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值