使用ggplot2进行数据可视化:散点图篇
The simple graph has brought more information to the data analyst’s mind than any other device. —John Tukey
在数据分析中,进行数据可视化是一个重要的步骤。在前期对数据进行初步探索时,数据可视化会让我们对数据有一个初步的了解;而在后期进行分析和交流时,数据可视化可以为别人提供更加有效、易读的信息。
在R语言中,有这两个绘图系统:传统绘图系统和Grid绘图系统,此外还有两个基于Grid绘图系统的主流拓展包:lattice和ggplot2。在这里主要介绍的是ggplot2包在数据可视化中的运用。ggplot2提供了全面的、基于语法的、连贯一致的图形生成系统,允许用户创建新颖的、有创造性的数据可视化图形。虽然ggplot2的学习曲线陡峭,但是只要掌握其语法规则,能够在很短的时间内生成达到出版水平的图形。所以,ggplot2是R数据可视化中重要的扩展包。
使用散点图观察两个连续性变量的关系
有时候,我们想要知道两个连续性变量是否存在某种关系,如线性、非线性、正相关、负相关等等,我们通常绘制散点图初步观察这种关系是否存在。
使用的示例数据集
在这里,我们主要是用的数据集是“mpg”。该数据集包含了1999-2008年部分车型以及其燃料消耗等数据。该数据集是ggplot2包一个示例数据集,我们可以使用查看该数据集前几行:
library(ggplot2)
data(mpg)
head(mpg)
# A tibble: 6 x 11
manufacturer model displ year cyl trans drv cty hwy fl class
<chr> <chr> <dbl> <int> <int> <chr> <chr> <int> <int> <chr> <chr>
1 audi a4 1.8 1999 4 auto(l5) f 18 29 p compact