数据匹配技巧

最新推荐文章于 2024-04-24 15:16:04 发布

sayhello1025

最新推荐文章于 2024-04-24 15:16:04 发布

阅读量498

点赞数

分类专栏：生信技巧文章标签： r语言

本文链接：https://blog.csdn.net/sayhello1025/article/details/120297036

版权

生信技巧专栏收录该内容

8 篇文章 4 订阅

订阅专栏

数据匹配

不同数据根据固定列进行匹配

data1 <- data.table::fread('orig_edge_list.csv',data.table = F)
> data1
    Source Target
1     1212 C00836
2    56848 C00836
3    10558 C00836
4     6609 C00836
5     5476 C00836
6      427 C00836
7     7124 C00836
8    81537 C00836

data2 <- data.table::fread('orig_node_list.csv',data.table = F)
> data2
        Id    Label        Evidence
1     1212     CLTB ENSP00000309415
2    56848    SPHK2 ENSP00000245222
3    10558   SPTLC1 ENSP00000262554
4     6609    SMPD1 ENSP00000340409
5     5476     CTSA                
6      427    ASAH1 ENSP00000489988
7     7124      TNF ENSP00000389492

目标是吧第一个数据中所有的id换成基因的名字
###已经踩坑错误的方法：用%in%进行提取，会自动排序###
正确的方法：用match记录位置，然后根据位置提取

map <- match(data1$Source,data2$Id)

data3 <- data2[map,]

map2 <-  match(data1$Target,data2$Id)
data4 <- data2[map2,]

data <- cbind(data1,data3,data4)
write.table(data,file = 'targets.txt',sep = '\t',quote = F)