dplyr-distinct 行记录去重细节处理

倪桦

于 2022-06-26 13:13:22 发布

阅读量994

点赞数

分类专栏： R语言-数据预处理文章标签： r语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/nh_code/article/details/125469088

版权

R语言-数据预处理专栏收录该内容

18 篇文章 8 订阅

订阅专栏

dplyr::distinct对数据框去重，该方法默认保留重复记录的第一条记录

通过指定一列或多列进行去重

df %>% distinct( `column1` , `column2` ,  `···`, .keep_all = T) #.keep_all表示去重后返回数据框的所有列向量

通过基于所有列向量去除重复行记录

df %>% distinct()

此外，除了使用distinct函数处理重复行记录，在dplyr管道中，还推荐使用group_by配合使用 slice实现更细致的去重操作，如：

随机保留1条重复行记录

df %>% group_by(`column1` ,  `···`)  %>% slice_sample(n = 1) %>% data.frame()

保留第1个重复行记录

df %>% group_by(`column1` ,  `···`)  %>% slice(1) %>% data.frame()

保留最后1个重复行记录

df %>% group_by(`column1` ,  `···`)  %>% slice( n() ) %>% data.frame()

根据一列向量进行分组排序再去重保留符合要求的记录

df %>% group_by(`column1`) %>% arrange(desc(`column3`)) %>% slice(1) %>% data.frame()

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
dplyr-distinct 行记录去重细节处理

dplyr-distinct 行记录去重细节处理
复制链接

扫一扫

专栏目录

倪桦 CSDN认证博客专家 CSDN认证企业博客

码龄2年

40: 原创

4万+: 周排名

22万+: 总排名

7万+: 访问

: 等级

461: 积分

3481: 粉丝

47: 获赞

12: 评论

206: 收藏

私信

关注

热门文章

分类专栏

R语言-数据预处理 18篇

最新评论

Spateo基于SSDNA圈细胞操作指南
人工智能前沿技术，: 您好请问可以聘请您讲授深度学习单细胞多组学的课程吗？课酬可以详谈
dplyr-as.numeric保留行名转换数据框(矩阵)的所有字符型列向量为数值型
愚蠢的大山: 疯狂点赞，嘎嘎有用
ComplexHeatmap热图样式分享-样本簇树聚类和基因表达量统计注释展示
倪桦: 开发者更新的了方法 `future::plan("multisession", workers = 6)`
ComplexHeatmap热图样式分享-样本簇树聚类和基因表达量统计注释展示
fern01: 运行future::plan("multiprocess", workers = 6)，返回Error: No such strategy for futures: ‘multiprocess’，怎么办呢
Spateo进行bin50空间转录组数据分析
倪桦: rwa 层存储的矩阵是人为添加的，没有的话可能是你没有添加进去，现在adata对象可以通过adata.raw.to_adata()方法调用你之前的数据存档，我这里设置的raw是做了normalization+log 转换的矩阵，你可以在做完这两步之后生成存档，方便下次有相关需求的时候读档；这些操作细节均可以在Adata 官方操作文档中阅读。本文教程可能有些过时了，新的基础文档可以在我阿里云技术博客中阅读。本人主要活跃在简书笔记，CSDN答复不及时

大家在看

文心一言小程序在内容创作方面的独特优势

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。