R语言-聚合合并(aggregate)存在重名且维度不相同的N个数据框-两种实现方法

最新推荐文章于 2024-07-24 15:47:04 发布

倪桦

最新推荐文章于 2024-07-24 15:47:04 发布

阅读量949

点赞数 1

文章标签： r语言开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/nh_code/article/details/125437116

版权

在单细胞转录组学数据分析中，我们经常需要对表达谱进行拟细胞或拟基因方向的分析，这些分析涉及到对表达矩阵的聚合汇总处理，同时还需要兼顾快速处理这些大型数据集。
scRNA-pipline

本文分享两种方法，实现对存在同名的行和同名的列，且维度不等的多个数据表进行快速聚合合并

方法一

组合使用 data.table::rbindlist和 stats::aggregate方法，首先提取出行名，然后行合并所有数据表，再根据行名聚合行合并后的数据表。data.table::rbindlist方法是do.call(rbind, list(...))方法的优化版本，它底层使用C实现，针对速度和内存进行了优化。注意使用该函数时设置参数fill=TRUE，该参数是确保数据表合并的时候向后兼容【意思是，如果后面要合并的数据表存在前面数据表所不存在的列，可以自动在合并的数据集中创建这些新列，并填充为NA，NA可以之后替换为任意值】。

聚合汇总方法使用stats::aggregate，但是该方法的效率比较低，如果处理小型数据集还好，大型数据集有些费时。其它操作可以参考文章:How to Aggregate Multiple Columns in R (With

最低0.47元/天解锁文章

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
R语言-聚合合并(aggregate)存在重名且维度不相同的N个数据框-两种实现方法

在单细胞转录组学数据分析中，我们经常需要对表达谱进行拟细胞或拟基因方向的分析，这些分析涉及到对表达矩阵的聚合汇总处理，同时还需要兼顾快速处理这些大型数据集。本文分享两种方法，实现对存在同名的行和同名的列，且维度不等的多个数据表进行快速聚合合并...
复制链接

扫一扫

倪桦 CSDN认证博客专家 CSDN认证企业博客

码龄2年

40: 原创

4万+: 周排名

22万+: 总排名

7万+: 访问

: 等级

461: 积分

3481: 粉丝

47: 获赞

12: 评论

206: 收藏

私信

关注

热门文章

分类专栏

R语言-数据预处理 18篇

最新评论

Spateo基于SSDNA圈细胞操作指南
人工智能前沿技术，: 您好请问可以聘请您讲授深度学习单细胞多组学的课程吗？课酬可以详谈
dplyr-as.numeric保留行名转换数据框(矩阵)的所有字符型列向量为数值型
愚蠢的大山: 疯狂点赞，嘎嘎有用
ComplexHeatmap热图样式分享-样本簇树聚类和基因表达量统计注释展示
倪桦: 开发者更新的了方法 `future::plan("multisession", workers = 6)`
ComplexHeatmap热图样式分享-样本簇树聚类和基因表达量统计注释展示
fern01: 运行future::plan("multiprocess", workers = 6)，返回Error: No such strategy for futures: ‘multiprocess’，怎么办呢
Spateo进行bin50空间转录组数据分析
倪桦: rwa 层存储的矩阵是人为添加的，没有的话可能是你没有添加进去，现在adata对象可以通过adata.raw.to_adata()方法调用你之前的数据存档，我这里设置的raw是做了normalization+log 转换的矩阵，你可以在做完这两步之后生成存档，方便下次有相关需求的时候读档；这些操作细节均可以在Adata 官方操作文档中阅读。本文教程可能有些过时了，新的基础文档可以在我阿里云技术博客中阅读。本人主要活跃在简书笔记，CSDN答复不及时

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。