如何让distinct根据指定列去重_如果GEO中一个探针对应多个基因，如何把这个探针全部删掉？...

最新推荐文章于 2023-09-27 21:19:30 发布

weixin_39668965

最新推荐文章于 2023-09-27 21:19:30 发布

阅读量2.1k

点赞数 2

文章标签：如何让distinct根据指定列去重

本文链接：https://blog.csdn.net/weixin_39668965/article/details/111285955

版权

这篇博客探讨了R语言中进行数据去重的不同方法，包括`unique`、`duplicated`和`dplyr::distinct`函数。当需求变为删除所有重复项时，提出了通过计数和交集操作来处理GEO芯片数据中一个探针对应多个基因的情况，以实现完全去重。作者以实例展示了如何实现这一目标，并提醒实际操作中应考虑效率。

摘要由CSDN通过智能技术生成

这个操作归类为去重，那么R语言里面有哪些去重的操作呢？
先创建一个带有重复项的数列

dd 1,3,5,5,5,6,7,7,8,9,9,9,9)

第一个去重的是unique

这是真正意义上的去重,

unique(dd)

[1] 1 3 5 6 7 8 9

他会去掉里面的重复项，保留重复项中的一个，也就是说虽然5是重复了，但是会保留一个5下来

第二个能去重的是duplicated

这个函数比较温和，他返回逻辑值，如果有重复的会返回TRUE

duplicated(dd)

如果要获取非重复项，需要感叹号!取反才可以

dd[!duplicated(dd)]

[1] 1 3 5 6 7 8 9

第三个去重是dplyr包中的distinct函数

他作用的是数据框，用于筛选行，如果有重复会保留第一个

library(dplyr)
data.frame(dd) %>% 
  distinct(dd) %>% 
  pull(dd)

[1] 1 3 5 6 7 8 9

用在这里大材小用了。
他的大用在这里
GEO芯片中多个探针对应一个基因，是求平均值还是保留最大值？

但是现在需求变了，如何去掉所有的重复项

这意味着，只要他是重复的，他本身就不能保留，一个都不可以

这个需求要费点周折，用非重复的数字集合，减去重复的数字集合就可以了

setdiff(unique(dd),dd[duplicated(dd)])

[1] 1 3 6 8

但是真实情况下，我们不这样做，因为太麻烦了，请看例子
现在有个数据

ID那一列有能够对应多个基因的探针，我们需要把它给去掉。
先把这个探针找出来

table(table(data$ID))

1 2
2971 6

有6个探针可以对应两个基因，需要把他们给删掉，实际上，个数少，手工操作也行。
如果我们尝试保留那2971个单一的探针，可以先计数，找出等于1的探针，然后跟原数据merge取交集就可以了, merge的对象得是数据框。

idlist data$ID)
id data.frame(ID=names(idlist[idlist==1]))
data1 data,id,by="ID")

基于以上的想法，如果用dplyr来做，更加直白一点

library(dplyr)
data2 data %>% 
  count(ID) %>% 
  filter(n==1) %>% 
  inner_join(data,by="ID") %>% 
  select(-n)

最终殊途同归

我是果子，最近腹泻得人都小了一圈，明天见。

weixin_39668965

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
如何让distinct根据指定列去重_如果GEO中一个探针对应多个基因，如何把这个探针全部删掉？...

这个操作归类为去重，那么R语言里面有哪些去重的操作呢？先创建一个带有重复项的数列dd1,3,5,5,5,6,7,7,8,9,9,9,9)第一个去重的是unique这是真正意义上的去重,unique(dd)[1] 1 3 5 6 7 8 9他会去掉里面的重复项，保留重复项中的一个，也就是说虽然5是重复了，但是会保留一个5下来第二个能去重的是duplicated这个函数比较温和，他返回逻辑...
复制链接

扫一扫