又是一个随手总结,方便日后查阅~
1、summary()
函数的应用及基本语法
在R语言中,summary()
函数用于生成数据的摘要统计信息,这些信息包括数据的最小值、最大值、中位数、均值、四分位数等。这个函数通常用于快速了解数据的分布和基本统计特征。summary()
函数适用于向量、因子、向量因子、数据框(data frame)和其他对象。
基本语法如下:
summary(object, ...)
其中:
object
:要摘要的数据对象,可以是向量、因子、数据框等。...
:其他参数,用于指定额外的选项。
2、一些示例说明summary()
函数的用法及其含义
2.1 示例 1:摘要统计信息
# 创建一个向量
x <- c(10, 20, 30, 40, 50)
# 生成向量的摘要统计信息
summary(x)
输出:
Min. 1st Qu. Median Mean 3rd Qu. Max.
10.0 20.0 30.0 30.0 40.0 50.0
这里显示了向量x
的最小值、第一四分位数、中位数、均值、第三四分位数和最大值。
2.2 示例 2:摘要数据框的列
# 创建一个数据框
data <- data.frame(
ID = 1:5,
Age = c(25, 30, 35, 40, 45),
Height = c(170, 175, 180, 185, 190)
)
# 生成数据框的摘要统计信息
summary(data)
输出:
ID Age Height
Min. :1.00 Min. :25.00 Min. :170
1st Qu.:2.25 1st Qu.:30.00 1st Qu.:175
Median :3.50 Median :35.00 Median :180
Mean :3.00 Mean :35.00 Mean :180
3rd Qu.:4.75 3rd Qu.:40.00 3rd Qu.:185
Max. :5.00 Max. :45.00 Max. :190
这里显示了数据框data
的每一列的摘要统计信息,包括最小值、第一四分位数、中位数、均值、第三四分位数和最大值。
-
第一四分位数(Q1):也称为下四分位数,它将数据集分为25%的下部分。换句话说,25%的观测值小于或等于第一四分位数。在数据的分布图上,第一四分位数标记了25%处的位置。
-
第三四分位数(Q3):也称为上四分位数,它将数据集分为25%的上部分。换句话说,25%的观测值大于或等于第三四分位数。在数据的分布图上,第三四分位数标记了75%处的位置。
参考:《R语言实战》[美]Robert I. Kabacoff
《R数据科学》[新西兰] Hadley Wickham & [美] Garrett Grolemund