NCBI于2000年发起的基因表达汇编(GEO)计划。致力于建立一个基因表达数据仓库和在线资源,用于从任何物种或人造的来源检索基因表达数据。
GEO主要包含各种芯片数据,也有少部分测序数据,与TCGA的差别在于TCGA只包含人的数据,而GEO是多物种的,GEO上有各种平台的数据,而TCGA只有测序数据,芯片数据的数据量较小,而TCGA的测序数据数据量较大。
GEO提供的数据类型
Series: 多个样本连接成一个完整的研究数据集,并提供了整个研究的描述,包括对数据的描述,总结分析。目前共有96445个研究。
Platforms: 用户提交给GEO数据中涉及到的芯片/测序平台,目前GEO上包含了18300种平台的数据。
Samples:用户提交给GEO的样本数据,目前平台上共有2439709个样本
DataSets: GEO工作人员根据用户提交的数据整理后得到的数据集,类似于TCGA的level4数据,目前共有4348个。
Profiles:GEO工作人员根据用户提交的数据整理后的数据,倾向于某个基因在不同数据集中的表单情况。
GEO数据检索
GEO数据库支持关键字检索和布尔逻辑,和使用pubmed非常相似,一般我们检索都是DataSets数据。
比如图中红色标记处都是可以各种定制化设置条件以检索自己想要的内容。
以寻找带有预后信息的胃癌数据集为例。
GEO数据检索胃癌数据
胃癌关键字有:gastric carcinoma,gastric cancer,Stomach Cancer,STAD
临床信息关键字:Clinical,Survival
检索数据结果注意
1、数据平台
2、样本量
3、数据集关联研究
简单看数据描述信息,做到心里有数,比如这套数据集用来做了什么,从Summary里面可以看出大概。
GEO数据下载
检索到数据集之后面临的是怎么下载数据,GEO数据是可以直接在线下载的,非常简单,同时GEO提供了多种数据的下载格式,主要有四种形式:
1、SOFT格式的数据
2、MINIML格式的数据
3、矩阵形式的数据
4、芯片原始数据
GEO数据下载格式
1、SOFT格式和MINIML格式的数据下载的是一个压缩包,解压之后里面有各个样本的单独的表达数据,还有平台的注释数据以及样本信息,其中样本信息是XML文件,其他为TXT格式的数据。
2、矩阵格式的数据下载后是一个压缩包,解压之后是一个TXT文件,可以使用Excel打开,样本信息都包含在里面。
3、无论是哪种数据,矩阵中的信息都是探针的,下载后需要重新处理。
4、GEO国内访问比较慢,在下载数据时经常会断或者会存在数据丢失。