R 获取向量元素的众数

众数是数据集中出现频次最高的元素,与平均值、中位数不同,众数可以是数值也可以是字符数据。

R 发现众数

R 内置的mean、median是标准函数,用于计算均值和中位数。mode函数却与我们期望的不一样,mode函数返回数据对象的存储类型。R 没有提供内置函数计算众数,我们只能自定义函数实现。

众数是要计算数据集中出现次数最高的元素集合,可能有多个元素出现频率相同。
在这里插入图片描述

自定义函数

下面我们定义函数计算向量的众数:

rv <- c(11, 18, 19, 21, 29, 46, 21, 19, 11)

imode <- function(x){
  ## 返回不重复元素序列
  uniq <- unique(x)
  
  ## 返回不重复元素在原数据集中的频次
  freq <- tabulate(match(x, uniq))
  
  ## 计算最大频次
  mf <- max(freq)
  
  ## 返回所有最大频次位置的元素集合
  uniq[freq == mf]
}

imode(rv)
# 返回三个元素
# [1] 11 19 21

下面我们看字符串类型是否正确返回。

rc <- c("a", "c", "y", "o", "b", "c", "y", "x", "a" )
imode(rc)

rc1 <- c("a", "c", "y", "o", "b", "c", "y", "x", "a", "c" )
imode(rc1)

# [1] "c"

结果如我们期望。我们计算众数经常用于使用众数填充缺失值,但如果返回多个值无法填充,因此现改进imode返回第一个众数:


imode0 <- function(x){
  ## 返回不重复元素序列
  uniq <- unique(x)
  
  ## 返回不重复元素在原数据集中的频次
  freq <- tabulate(match(x, uniq))
  
  ## 计算第一个最大频次元素位置
  mf <- which.max(freq)

  ## 返回所有最大频次位置的元素集合
  uniq[mf]
}

rc <- c("a", "c", "y", "o", "b", "c", "y", "x")
imode0(rc)
# [1] "c"

返回结果如预期,当然上面最后三行代码可以精简为:uniq[which.max(tabulate(match(x, uniq)))]

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值