1、pairs()函数的基本用法
pairs(x,
# x: 数据框或矩阵,包含要绘制的变量
# 若为数据框,则只会绘制数值型变量之间的关系
# 若为矩阵,则会将所有列作为变量
# 若要绘制部分变量之间的关系,可先对数据进行子集选择
main = "Scatterplot Matrix",
# 主标题
labels = NULL,
# 变量标签,用于指定每个子图的标题,默认使用变量名
pch = 1,
# 散点的点型,默认为圆点
col = "black",
# 散点的颜色,默认为黑色
bg = NULL,
# 散点的填充颜色,默认为透明
cex = 1,
# 散点的大小,默认为 1
...)
2、示例
使用R的内置数据集 iris
,它包含了鸢尾花的各个特征,可以使用 pairs()
函数来创建一个散点图矩阵,以探索这些特征之间的关系。
# 加载数据集
data(iris)
# 创建散点图矩阵
pairs(iris[, 1:4], # 只选择前四个变量进行可视化
main = "Scatterplot Matrix of Iris Dataset",
pch = 16, # 设置点型为实心圆
col = iris$Species) # 按照花的种类给不同的颜色
这里不妨查看一下使用的内置数据集“iris”,数据包括了150个样本的五个特征,最后一列是品种(3种,每种50个样本,图中未显示完全),共150行5列。
输出:
这里的每个小图(对角线的四个除外),是两个变量之间的散点图,显示了两个不同变量之间的关系。通过观察这些散点图的形态,可以初步判断两个变量之间的关系是正相关、负相关还是无关。
三个颜色代表了三个品种。
3、散点图矩阵的作用
散点图矩阵是一种同时展示多个变量之间关系的可视化方法。它通过在一个矩阵中展示所有可能的两两变量之间的散点图来帮助我们理解多个变量之间的相关性、趋势和异常值等信息。
散点图矩阵的作用包括:
- 可视化多个变量之间的关系: 散点图矩阵可以直观地显示出多个变量之间的关系,有助于观察变量之间的线性或非线性关系、相关性等。
- 识别异常值: 通过观察散点图矩阵中的离群点,可以识别出数据中的异常值或不正常的观测。
- 探索性数据分析: 散点图矩阵是探索性数据分析(Exploratory Data Analysis,EDA)的重要工具之一,可以帮助我们对数据集进行初步的探索和了解。
- 变量选择: 在建模前,散点图矩阵可以帮助选择哪些变量可能与目标变量相关,以及哪些变量可能具有共线性。
参考:Package graphics version 4.3.1