芯片数据分析笔记【04】 | ArrayExpress 数据库介绍

芯片数据分析笔记【01】 | 基因芯片的基本原理

芯片数据分析笔记【02】 | 芯片数据库

芯片数据分析笔记【03】 | GEO数据库使用教程及在线数据分析工具


NCBI 的基因表达综合数据库 GEO 和欧洲生物信息学研究所(EBI)的 ArrayExpress 是芯片数据的两个主要公共数据库。尽管它们具有不同的设计,但两个数据库都支持由 MIAME 定义的所有数据元素。因此 GEO 和ArrayExpress 数据库及数据集结构十分相似,可以类比的学习。ArrayExpress 数据库在 2002建立,开始收录芯片数据, 2008 年开始收录高通量测序数据,同样,近几年测序数据的增长量逐渐超过芯片数据。ArrayExpress 是 GEO 数据的一个良好的补充。

ArrayExpres数据库的主页链接(https://www.ebi.ac.uk/arrayexpress/)

进到主页之后,我们可以先看一下这个数据库的信息,比如它是功能基因组数据,目前有74700个实验的数据,2556953个芯片数据,60.91TB的存档数据,这都是在描述ArrayExpres数据库的数据量的大小。

我想要搜一个关于breast cancer 的研究,那我就输入关键字:breast cancer ,然后点击搜索。

搜索完之后,我们看一下结果,有2896个实验的研究出来了,其中有一些可能不是你想要的,我们可以加一些过滤条件以减少实验研究的数量。在左上角有一个"Filter search results"这个筛选工具,就是添加过滤条件的地方,我现在加一些条件,然后点击filter即可过滤。

过滤后的结果就少了很多。但是还是很多,我们可以在搜索的时候多添加关键词。

我把出来的这个结果对应的每个字段解释一哈:(以E-MTAB-8310为例)

  • 1. Accession:数据库ID,芯片的数据库编号;

  • 2. Title:题目也就是文章的研究方向;

  • 3. Type:实验类型,转录组分析;

  • 4. Organism:

    物种,研究的物种是人;

  • 5. Assays:

    芯片样本数,有8个样品;

  • 6. Released:上传日期,2021年3月2号;

  • 7. Processed:

    处理过的数据(包括:

    矩阵数据和单样品数据)。

    如果这里有下载的箭头,可以下载到它们。

  • 8. Raw:原始数据链接,打开后可以下载数据。下载的页面如下。


我们可以点击Accession ID 查看该数据集的详细信息,该信息页面也有下载数据的地址。

参考:https://mp.weixin.qq.com/s/UWMcXFjtydTU9W3JTnUrhA

### 使用R语言从ArrayExpress数据库下载数据 为了实现这一目标,可以借助`biomaRt`和`arrayQualityMetrics`等包来处理ArrayExpress中的数据集[^2]。具体来说,`ArrayExpress` R包提供了专门用于访问ArrayExpress资源的功能函数。 #### 安装必要的软件包 如果尚未安装这些必需的库,则可以通过以下命令完成安装: ```r if (!requireNamespace("BiocManager", quietly = TRUE)) install.packages("BiocManager") BiocManager::install(c('biomaRt', 'arrayQualityMetrics')) ``` #### 加载所需的库并设置环境变量 加载上述已安装好的库,并配置好工作路径以便保存后续操作产生的文件。 ```r library(biomaRt) library(arrayQualityMetrics) setwd("/path/to/your/work/directory") # 设置自己的工作目录 ``` #### 查询感兴趣的实验设计 通过指定特定条件(如物种名称、组织类型或其他元数据),可以从ArrayExpress中查找符合条件的研究项目列表。 ```r mart <- useMart("ensembl") datasets <- listDatasets(mart=mart, filter="experiment_accession", values=c("E-MTAB-5061")) print(datasets) ``` #### 下载选定的数据集 一旦找到了想要研究的具体案例编号(例如"E-MTAB-5061"),就可以调用相应的接口将其完整的CEL/GEO文件拉取到本地磁盘上。 ```r aeData <- getAE(accession="E-MTAB-5061", type="raw", mart=mart) save(aeData, file="EMTAB_5061.Rdata") ``` 以上过程展示了如何利用R脚本自动化地连接至ArrayExpress服务器端口,进而高效批量获取所需生物样本资料的方法[^1]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值