R语言数据去重

1、unique函数


[plain] view plain copy
 print?在CODE上查看代码片派生到我的代码片
  1. > rt  
  2.     年 月 公司名 利率  
  3. 1 2000  1      A    a  
  4. 2 2000  1      A    a  
  5. 3 2001  2      A    b  
  6. 4 2001  3      A    c  
  7. 5 2000  1      B    d  
  8. 6 2000  2      B    e  
  9. 7 2000  2      B    e  
  10. > unique(rt)  
  11.     年 月 公司名 利率  
  12. 1 2000  1      A    a  
  13. 3 2001  2      A    b  
  14. 4 2001  3      A    c  
  15. 5 2000  1      B    d  
  16. 6 2000  2      B    e  
  17. > unique(rt,fromLast=TRUE)  
  18.     年 月 公司名 利率  
  19. 2 2000  1      A    a  
  20. 3 2001  2      A    b  
  21. 4 2001  3      A    c  
  22. 5 2000  1      B    d  
  23. 7 2000  2      B    e  
以上是根据你的数据得到的,R中默认的是fromLast=FALSE,即若样本点重复出现,则取首次出现的;

否则去最后一次出现的。列名不变,去掉重复样本值之后的行名位置仍为原先的行名位置。


2、duplicated函数

在数据框中应用较为广泛。

[plain] view plain copy
 print?在CODE上查看代码片派生到我的代码片
  1. #源数据  
  2. > data.set  
  3.    Ensembl.Gene.ID Gene.Biotype Chromosome.Name Gene.Start..bp. Gene.End..bp.  
  4. 1  ENSG00000236666    antisense                  22        16274560      16278602  
  5. 2  ENSG00000236666    antisense                  22        16274560      16278602  
  6. 3  ENSG00000234381   pseudogene              22        16333633      16342783  
  7. 4  ENSG00000234381   pseudogene              22        16333633      16342783  
  8. 5  ENSG00000234381   pseudogene              22        16333633      16342783  
  9. 6  ENSG00000234381   pseudogene              22        16333633      16342783  
  10. 7  ENSG00000234381   pseudogene              22        16333633      16342783  
  11. 8  ENSG00000234381   pseudogene              22        16333633      16342783  
  12. 9  ENSG00000234381   pseudogene              22        16333633      16342783  
  13. 10 ENSG00000224435   pseudogene             22        16345912      16355362  
  14.   
  15. #构建一个布尔向量,索引  
  16. > index<-duplicated(data.set$Ensembl.Gene.ID)  
  17. > index  
  18.  [1] FALSE  TRUE FALSE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE FALSE  
  19.   
  20. #筛选数据  
  21. > data.set2<-data.set[!index,]  #选中了非重复的数据  
  22. > data.set2  
  23.   
  24. #用法与is.na()对比  
  25. x[!is.na(x)]  #选中不是缺失值的数据  
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值