芯片数据分析笔记【03】 | GEO数据库使用教程及在线数据分析工具
NCBI 的基因表达综合数据库 GEO 和欧洲生物信息学研究所(EBI)的 ArrayExpress 是芯片数据的两个主要公共数据库。尽管它们具有不同的设计,但两个数据库都支持由 MIAME 定义的所有数据元素。因此 GEO 和ArrayExpress 数据库及数据集结构十分相似,可以类比的学习。ArrayExpress 数据库在 2002建立,开始收录芯片数据, 2008 年开始收录高通量测序数据,同样,近几年测序数据的增长量逐渐超过芯片数据。ArrayExpress 是 GEO 数据的一个良好的补充。
ArrayExpres数据库的主页链接(https://www.ebi.ac.uk/arrayexpress/)
进到主页之后,我们可以先看一下这个数据库的信息,比如它是功能基因组数据,目前有74700个实验的数据,2556953个芯片数据,60.91TB的存档数据,这都是在描述ArrayExpres数据库的数据量的大小。
我想要搜一个关于breast cancer 的研究,那我就输入关键字:breast cancer ,然后点击搜索。
搜索完之后,我们看一下结果,有2896个实验的研究出来了,其中有一些可能不是你想要的,我们可以加一些过滤条件以减少实验研究的数量。在左上角有一个"Filter search results"这个筛选工具,就是添加过滤条件的地方,我现在加一些条件,然后点击filter即可过滤。
过滤后的结果就少了很多。但是还是很多,我们可以在搜索的时候多添加关键词。
我把出来的这个结果对应的每个字段解释一哈:(以E-MTAB-8310为例)
1. Accession:数据库ID,芯片的数据库编号;
2. Title:题目也就是文章的研究方向;
3. Type:实验类型,转录组分析;
4. Organism:
物种,研究的物种是人;
5. Assays:
芯片样本数,有8个样品;
6. Released:上传日期,2021年3月2号;
7. Processed:
处理过的数据(包括:
矩阵数据和单样品数据)。
如果这里有下载的箭头,可以下载到它们。
8. Raw:原始数据链接,打开后可以下载数据。下载的页面如下。
我们可以点击Accession ID 查看该数据集的详细信息,该信息页面也有下载数据的地址。
参考:https://mp.weixin.qq.com/s/UWMcXFjtydTU9W3JTnUrhA