使用小鼠数据进行GSEA分析
Molecular Signatures Database (MSigDB) 是一个由Broad研究所创建和维护的重要资源。MSigDB包含了各种各样的资源,并且与多个物种有关,其中主要是人类相关的数据集。目前许多工作是利用小鼠模型研究人类疾病。MSigDB的数据集不能直接使用,需要经过基因映射到小鼠同源基因。最近的工作刚好需要处理这个事情,于是整理了目前的处理方式。
利用GSEA工具分析需要的输入数据包括:
表达矩阵(GCT,TXT)
表型文件(CLS)
数据集文件(GMT)
这里GCT文件与CLS可手动在excel中按http://software.broadinstitute.org/cancer/software/gsea/wiki/index.php/Data_formats#TXT:Text_file_format_for_expression_dataset.28.2A.txt.29网页中的介绍修改。
数据集文件同样需要自己构建,在找解决方案过程中,我发现了已经有人整理了相关内容(http://bioinf.wehi.edu.au/software/MSigDB/),储存为需要R语言处理的数据rds。
我使用来自Broad的GSEA分析工具不能直接使用这些数据。于是把上述rds转换为gmt文件。
代码如下:
mm.kegg