R语言的apply、lapply、sapply、tapply函数总结

最新推荐文章于 2025-05-06 10:38:08 发布

Wency(王斯-CUEB)

最新推荐文章于 2025-05-06 10:38:08 发布

阅读量8.1k

点赞数 11

分类专栏： R语言文章标签： r语言开发语言

本文链接：https://blog.csdn.net/weixin_43213884/article/details/121779611

版权

R语言专栏收录该内容

38 篇文章

订阅专栏

本文详细介绍了R语言中的apply()、lapply()、sapply()和tapply()函数。apply()函数用于避免使用循环，对矩阵或数据框进行操作；lapply()处理列表，返回列表对象；sapply()类似lapply()，但返回向量或矩阵。tapply()则用于按因子变量对向量进行分组计算。文中给出了各个函数的语法、实例及应用场景，帮助读者更好地理解和运用这些函数。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

apply()

解释

apply()以数据帧或矩阵作为输入，并以向量、列表或数组的形式给出输出。apply()函数主要用于避免显式使用循环结构。它是所有集合中最基本的，可以在母体上使用。

语法

apply(X, MARGIN, FUN)

x ：数组或矩阵
MARGIN：取1到2之间的值或范围来定义在何处应用函数
MARGIN=1` ：操作是对行执行的（横着）
MARGIN=2` ：操作是在列上执行的（竖着）
MARGIN=c(1,2)`：操作是对行和列执行的
FUN ：告诉应用哪个函数。构建的函数如mean, median, sum, min, max，甚至用户定义的函数都可以应用。

例子

> mat1 <- matrix(C<-(1:10),nrow=5, ncol=6)
> mat1
     [,1] [,2] [,3] [,4] [,5] [,6]
[1,]    1    6    1    6    1    6
[2,]    2    7    2    7    2    7
[3,]    3    8    3    8    3    8
[4,]    4    9    4    9    4    9
[5,]    5   10    5   10    5   10
> results  <- apply(mat1, 2, sum)
> results
[1] 15 40 15 40 15 40

lapply()

解释

lapply()函数用于对列表对象执行操作，并返回与原始集合长度相同的列表对象。

lappy()函数返回与输入列表对象长度相似的列表对象，其中的每个元素都是应用FUN到列表中相应元素的结果。

lapply()以列表、向量或数据帧作为输入，并在列表中给出输出。

语法

lapply(X, FUN)

X：向量或对象
FUN：作用于x中的每个元素的函数
lapply()中的“l”代表list。lapply()和apply()之间的区别在于输出。lapply()的输出是一个列表。lapply()可以用于其他对象，比如数据帧和列表。

lapply()函数不需要参数“MARGIN”。

例子

一个非常简单的例子是使用tolower函数将矩阵的字符串值更改为小写。我们用著名电影的名字构造一个矩阵。名称是大写格式的。

> movies <- c("SPYDERMAN","BATMAN","VERTIGO","CHINATOWN")
> movies_lower <-lapply(movies, tolower)
> str(movies_lower)
List of 4
 $ : chr "spyderman"
 $ : chr "batman"
 $ : chr "vertigo"
 $ : chr "chinatown"

sapply()

解释

sapply()函数的作用是：将列表、向量或数据帧作为输入，并以向量或矩阵的形式给出输出。sapply()函数和lapply()函数做同样的工作，但是返回一个向量。

语法

sapply(X,FUN)

X：向量或对象
FUN：作用于x中每个元素的函数

例子

> df <- cars
> lapply_results <- lapply(df, max)
> sapply_results <- sapply(df, max)
> lapply_results
$speed
[1] 25

$dist
[1] 120

> sapply_results
speed  dist 
   25   120

tapply()

解释

tapply()为向量中的每个因子变量计算一个度量值(均值、中值、最小值、最大值等)或一个函数。这是一个非常有用的函数它可以让你创建一个向量的子集然后对每个子集应用一些函数。

语法

tapply(X, INDEX, FUN = NULL)

X：一个对象，通常是向量
INDEX：一个包含因子的列表
FUN：作用于x中每个元素的函数

例子

数据科学家或研究人员的部分工作是计算变量的摘要。例如，根据特征测量平均数据或组数据。大多数数据按ID、城市、国家等分组。总结小组揭示了更有趣的模式。

为了理解它是如何工作的，让我们使用iris数据集。这个数据集在机器学习领域非常有名。这个数据集的目的是预测三种花的种类:萼片，花斑，维珍。数据集收集每个物种的长度和宽度的信息。

作为前提工作，我们可以计算每个物种长度的中位数。tapply()是执行此计算的一种快速方法：

> data(iris)
> tapply(iris$Sepal.Width, iris$Species, median)
    setosa versicolor  virginica 
       3.4        2.8        3.0

参考

传送门【https://www.geocalculate.com/4634.html】