GEO下载到的标准化后的表达矩阵(Series Matrix File(s)文件)或是下载原始.CEL文件自己归一化后形成的表达矩阵,每行的标注是以探针的形式给出的,例如。
这样在分析差异基因之后,并不知道哪个探针对应哪个基因,希望能否先得到每行以基因形式标注的表达矩阵。
我在尝试了多种方法之后,发现GSEA桌面软件中集成的一个“CollapseDataset Page”小软件可以快速实现这一操作,故分享给大家。
在进行转化之前,需要准备两种文件:
安装并运行“GSEA v4.0.3 for Windows”(https://www.gsea-msigdb.org/gsea/downloads.jsp),进入界面后点击左侧栏目的“Load data”,会跳出加载标签页,将刚准备好的两个文件拖入加载框,再点“加载这些文件”按钮。
成功加载数据后,点击左侧栏目的Collapse Dataset小工具,会跳出该小工具的标签页。首先,在表达数据集下拉菜单中选取你刚才加载的表达矩阵;接着点击芯片平台右侧的“…”,选取网站上现成的chip文件或刚加载的自制chip文件;再接着选取“多个探针对应一个基因”的转换策略,目前使用较多的策略是:在每个样本中,如果有n个探针对应一个基因,那么就使用n个探针的中位数探针值作为该基因在这个样本中的表达量;因此,这里就选择“Median”;同理也可根据需要选择其他策略;下面可以继续设置分析的命名以及输出结果的文件夹。
最后点击“Run”,一般几秒钟就会运行完毕。
打开输出结果的文件夹,可以找到一个类似“_collapsed_to_symbols.gct”的文件,就是转化成功的基因级的表达矩阵文件。
可以根据需要,用EXCEL加工回常规的表达矩阵,用于下一步分析。