项目需求:现在以及大鼠的基因若干,想要转换成人类对应的同源基因的名及ID,怎么对应?
解决策略:(几行代码就可以快速解决,感谢R)
#安装好R包
install.packages("homologene")
library(homologene)
homologene::taxData
#Rattus norvegicus:10116
#Homo sapiens:9606
###############################################################
setwd("E://")
genes<-read.csv("genes.csv") #输入数据集 #输入的可以是genesymbol名,也可以是ncbi的id
transferdata<-homologene(genes$gene.name,inTax = 10116,outTax = 9606) #转换后得到的是一个四列的矩阵
colnames(transferdata)[1]<-"gene.name"
data<-merge(genes,transferdata,all.x = TRUE) #合并,取交集,也同时保留原始数据中未对应上的部分
write.csv(data,"humangene.csv",row.names = F) #写入文件中
在该R包使用过程中,一些经验:
(1)可能并不是所有的基因能够对应上,剩下的可能是数据库中没有,可以自己去NCBI的gene数据中手动一一注释。
(2)有时候小鼠转换到人基因名,似乎只是大小写的问题(这方面的经验未知)。