信息来源:
Data formats - GeneSetEnrichmentAnalysisWiki
本文以GSEA分析所需要的文件格式为例进行讲解
1.表达式数据格式(.gct、.res、.pcl、.txt);
2.表型数据格式(.cls);
3.基因集数据库格式(.gmx、.gmt、.grp、.xml(这个貌似可以利用MSigDB数据库));
4.微列阵芯片注释格式(.chip);
5.基因的排名列表(.rank)
1.表达式数据格式
1.1
GCT
如果要同时用于GenePattern和GSEA分析的话,需要将不同平台的表达式数据格式统一为.gct格式。一般是从纯文本文件(.txt、.csv)开始进行目标格式的转换,将其以excel打开,然后根据要求对格式的内容进行更改后再保存为gct格式的文件。gct文件格式只允许一行标识符。注:GenePattern里面有直接进行格式转换的模块。