Matlab生物信息学工具箱新增功能——处理GEO系列数据
本文讨论Matlab生物信息学工具箱用于获取并处理NCBI基因表达数据库(GEO)系列数据集的新功能。
引言
NCBI基因表达数据库是存储高通量微阵列实验数据最大的公共数据库,包括四
种实体类:GEO平台(GPL)、GEO样本(GSM)、GEO系列(GSE)和修订GEO数据集(GDS)。
一条平台记录描述了实验所用芯片的元件列表如:cDNAs、寡核苷酸探针集等,每个平台记录拥有一个唯一、稳定的GEO存取号(GPLxxx)。
一条样本记录描述每个样本的处理条件、操作、每个元件的丰度测量值,每个样本记录拥有一个唯一、稳定的GEO存取号(GSMxxx)。
一条系列记录定义了一组相关的样本并提供了整个研究的焦点和描述信息,也包含描述提取数据的表、概要结论或分析,每个系列记录拥有一个唯一、稳定的GEO存取号(GSExxx)。
一条数据集记录(GDSxxx)代表一个生物学和统计学可比较的GEO样本的集合,GEO数据集是GEO样本数据的修订集。
Matlab生物信息学工具箱提供了获取并解析GEO格式数据文件的函数,GSE, GSM, GSD和GPL数据可以通过调用getgeodata函数获取,该函数也能将获取的数据
保存到一个文本文件中,GEO系列记录可以SOFT格式文件和制表符分割的文本
格式文件获得,可以用geoseriesread函数读取GEO系列文本格式文件,用geosoftread函数读取通常相当大的SOFT格式文件。
本文用实例演示如何调用这些函数获取并解析GEO系列数据,以获取GSE5847
数据集为例,进行统计分析,该数据集包括15个发炎引起的乳腺癌(IBC)病例和35个非发炎引起的乳腺癌病例的肿瘤基质和上皮细胞的实验数据。(Boersma et al. 2008)
获取GEO系列数据
函数getgeodata返回一个数据结构包含来自GEO数据库的数据,可本地保存这些数据用于下一步的Matlab子程序,用geoseriesread解析GSE文本格式文件。