GEO Gene Expression Omnibus

GEO  Gene Expression Omnibus 基因表达数据库

网址:https://www.ncbi.nlm.nih.gov/geo/

GEO的数据存储方式

GEO数据库具体存放四类数据:GSE、GDS、GSM、GPL

GEO Series Study  GSE号(GSExxx)对应的是整个研究项目的系列的数据,可能会涉及不同平台。

GEO DataSet  GDS号(GDSxxx)对应的是一个同一平台的数据集,这些包括包括从微整列和高通量序列技术生成的数据。

GEO Sample  GSM号(GSMxxx)对应单一样本的数据信息,它只能是单一平台的数据

GEO Platform GPL号(GPLxxx)对应一个平台的信息,一般不接触

通常 GSE和GDS中会包含多个GSM数据

另外,GEO Profiles数据库是GEO的工作人员根据用户提交的数据整理后的数据,倾向于某个基因在不同数据集中的表达情况。

GEO数据检索与下载

GEO数据库支持关键字检索和布尔逻辑,和使用pubmed非常相似,一般我们都是在GEO DataSets数据库中检索

R包的安装与下载数据

GEOquery 的官网 http://www.bioconductor.org/packages/release/bioc/html/GEOquery.html

if (!requireNamespace("BiocManager", quietly = TRUE))
    install.packages("BiocManager")

BiocManager::install("GEOquery")
利用 GSE 号下载

通过阅读文献查找感兴趣的GSE号,下载对应的表达数据和平台信息等,可以利用GEOquery中的getGEO()函数下载series_matrix.txt。例如GSE57820:

> library (GEOquery)
> # destdir设置当前目录,getGPL 和AnnotGPL都设置TRUE,可以下载和获得平台的注释文件
> GSE57820 <- getGEO ( "GSE57820" , GSEMatrix = TRUE , destdir = "." , getGPL = T, AnnotGPL = T)
利用GDS号下载
> GDS6100 <- getGEO ( "GDS6100" , GSEMatrix = TRUE , destdir = "." , getGPL = T, AnnotGPL = T)
利用GSM号下载

利用GSM号下载的是单样本的表达数据,例如GSM1394594

> GSM1394594 <- getGEO ( "GSM1394594" , GSEMatrix = TRUE , destdir = "." , getGPL = T, AnnotGPL = T)
利用GPL号下载

针对芯片平台,利用GPL号下载得到的数据是芯片的设计和注释信息,可以获得探针组和基因的对应关系,例如GPL10558:

> GPL10558 <- getGEO ( "GPL10558" , GSEMatrix = TRUE , destdir = "." , getGPL = T, AnnotGPL = T)

 

参考

https://www.jianshu.com/p/0d32fd410bcf

 

转载于:https://www.cnblogs.com/0820LL/p/11115728.html

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值