箱线图的作用
箱线图(Boxplot)是一种简洁而有效的统计图形,用于可视化数据分布、中心趋势及其变异性,同时还可以揭示异常值。具体来说,箱线图的作用包括以下几个方面:
1. 描述数据分布
箱线图可以快速提供数据分布的概要信息:
- 中位数:箱线的中间线表示中位数,揭示数据的中心趋势。
- 四分位间距(IQR):箱体的上边缘和下边缘分别表示第 3 四分位数(Q3)和第 1 四分位数(Q1),表示中间 50% 数据的范围。
- 上下须:通常表示不超过 1.5 倍 IQR 的数据范围,说明数据的扩展性。
- 异常值:超出上下须范围的数据点,显示为孤立的点。
2. 比较多组数据的分布
箱线图非常适合于比较多个组的分布差异。通过不同组的箱线位置和大小,可以快速观察以下信息:
- 组间的中位数是否有显著差异。
- 不同组的离散程度(箱体高度和须的长度)。
- 是否存在异常值。
3. 检测数据中的异常值
通过观察超出上下须范围的孤立点,可以快速定位可能的异常值或极端值。异常值可能反映数据输入错误,也可能是值得进一步分析的特殊现象。
绘制带显著性的箱线图
1. 数据准备
RT_data <- data.frame(
sample_type = rep(c("风险决策", "跨期决策"), times = c(length(ParData1RC0$RT.mean), length(ParData1IC0$RT.mean))),
RT_mean = c(ParData1RC0$RT.mean / 1000, ParData1IC0$RT.mean / 1000)
)
含义:
- 目标:创建一个新的数据框
RT_data
用于绘图。 - 解释:
sample_type
:用rep()
函数重复生成两类样本标签 "风险决策" 和 "跨期决策",每类的重复次数分别为两组数据ParData1RC0
和ParData1IC0
的长度。RT_mean
:分别取两组数据的平均反应时间列RT.mean
,并将单位从毫秒转换为秒(通过除以 1000)。
2. 绘图初始设置
p <- ggplot(RT_data, aes(x = sample_type, y = RT_mean, fill = sample_type)) +
含义:
- 目标:定义图形的数据来源和美学映射(<