众数是数据集中出现频次最高的元素,与平均值、中位数不同,众数可以是数值也可以是字符数据。
R 发现众数
R 内置的mean、median是标准函数,用于计算均值和中位数。mode函数却与我们期望的不一样,mode函数返回数据对象的存储类型。R 没有提供内置函数计算众数,我们只能自定义函数实现。
众数是要计算数据集中出现次数最高的元素集合,可能有多个元素出现频率相同。
自定义函数
下面我们定义函数计算向量的众数:
rv <- c(11, 18, 19, 21, 29, 46, 21, 19, 11)
imode <- function(x){
## 返回不重复元素序列
uniq <- unique(x)
## 返回不重复元素在原数据集中的频次
freq <- tabulate(match(x, uniq))
## 计算最大频次
mf <- max(freq)
## 返回所有最大频次位置的元素集合
uniq[freq == mf]
}
imode(rv)
# 返回三个元素
# [1] 11 19 21
下面我们看字符串类型是否正确返回。
rc <- c("a", "c", "y", "o", "b", "c", "y", "x", "a" )
imode(rc)
rc1 <- c("a", "c", "y", "o", "b", "c", "y", "x", "a", "c" )
imode(rc1)
# [1] "c"
结果如我们期望。我们计算众数经常用于使用众数填充缺失值,但如果返回多个值无法填充,因此现改进imode返回第一个众数:
imode0 <- function(x){
## 返回不重复元素序列
uniq <- unique(x)
## 返回不重复元素在原数据集中的频次
freq <- tabulate(match(x, uniq))
## 计算第一个最大频次元素位置
mf <- which.max(freq)
## 返回所有最大频次位置的元素集合
uniq[mf]
}
rc <- c("a", "c", "y", "o", "b", "c", "y", "x")
imode0(rc)
# [1] "c"
返回结果如预期,当然上面最后三行代码可以精简为:uniq[which.max(tabulate(match(x, uniq)))]
。