GEO数据库ID转换

最新推荐文章于 2024-08-20 10:54:35 发布

optiz

最新推荐文章于 2024-08-20 10:54:35 发布

阅读量288

点赞数 1

文章标签：数据库

本文链接：https://blog.csdn.net/2302_80650915/article/details/136049004

版权

本文介绍了如何使用R语言中的GEOquery获取GEO数据库的数据，并通过hugene10sttranscriptcluster.db包将表达矩阵中的探针ID转换为基因符号，最终进行数据清洗和合并，保存为txt和csv文件。

摘要由CSDN通过智能技术生成

library(GEOquery)
eSet <- getGEO("GSE42872",
       destdir = '.',
       getGPL = F)  # 获取平台信息
exp <- exprs(eSet[[1]])  # 表达矩阵
GPL <- eSet[[1]]@annotation  # 平台信息——提取芯片平台编号

在http://www.bio-info-trainee.com/1399.html网站获取平台探针与基因对应关系的R包

如果没有下载过这个包，就下载一下，代码如下（注意：网页里面的R包名称不是全称，要在后面加“.db”）

BiocManager::install(hugene10sttranscriptcluster.db)
library(hugene10sttranscriptcluster.db)
ids <- toTable(hugene10sttranscriptclusterSYMBOL)  # 提取探针ID以及其对应的gene symbol
head(ids)  # 查看提取内容

通过上述方法我们得到了ID对应的symbol，接下来只需要将symbol列对应进矩阵就好了

#install.packages("dplyr")
library(dplyr)
colnames(ids) = c("probe_id" ,"symbol")
exp=as.data.frame(exp)
exp$probe_id=rownames(exp)  # 将行名变为列名为probe_id的一列
# exp是原来的表达矩阵
exp2= merge(exp,ids,by.x="probe_id", by.y="probe_id")  # 合并数据
exp2=exp2[!duplicated(exp2$symbol),]  # 按照symbol列去重
# 数据框probe_exp的行名变成symbol
rownames(exp2)=exp2$symbol
exp2=exp2[,c(-1,-ncol(exp2))]
#输出文件
write.table(exp2,file = "ids_exprs.txt",sep = "\t",row.names=T,col.names = T)
write.csv(exp2,file = "ids_exprs.csv")

作者：混迹天然 https://www.bilibili.com/read/cv14560979/ 出处：bilibili

optiz

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
GEO数据库ID转换

作者：混迹天然 https://www.bilibili.com/read/cv14560979/ 出处：bilibili。在http://www.bio-info-trainee.com/1399.html网站获取平台探针与基因对应关系的R包。如果没有下载过这个包，就下载一下，代码如下（注意：网页里面的R包名称不是全称，要在后面加“.db”）通过上述方法我们得到了ID对应的symbol，接下来只需要将symbol列对应进矩阵就好了。
复制链接

扫一扫