ENSG-GeneSymbol-GeneID转换
读取数据
##read.delim()函数读取tsv数据
exp <- read.delim("TCGA-BRCA.htseq_counts.tsv",stringsAsFactors=FALSE)
data=data.frame(exp)
基因ID转换
library(stringi)##加载包
data$Ensembl_ID=stri_sub(data$Ensembl_ID,1,15)##保留前15位
# 加载相关包
library(clusterProfiler)
library(org.Hs.eg.db)
# 查看org.Hs.eg.db 包提供的转换类型
keytypes(org.Hs.eg.db)
# 需要转换的Ensembl_ID
Ensembl_ID <- data$Ensembl_ID
# 采用bitr()函数进行转换
gene_symbol <- bitr(Ensembl_ID, fromType="ENSEMBL", toType=c("SYMBOL", "ENTREZID"), OrgDb="org.Hs.eg.db")
# 查看转换的结果
head(gene_symbol)
#匹配到表达矩阵中
data=data.frame(gene_symbol,data[match(gene_symbol$ENSEMBL,data$Ensembl_ID),])
#去除重复的Ensembl_ID列
data=data[,-4]