今天讲讲如何从芯片数据中寻找到差异表达的基因。
首先,我们得知道为什么我们需要找这些差异表达的基因 (DEGs)。拿肿瘤来说,在肿瘤的发生发展过程中,很多平时沉默的基因开始高表达,而原本那些正常表达的基因,它们的表达量可能就会下调。也恰恰这些与平时正常基因表达量发生变化的基因,它们的存在启动了肿瘤的发生。所以,如果我们要研究肿瘤发生的机制,研究这些差异表达的基因是必不可少的。
今天介绍一下经典R包limma。limma既可以用于分析芯片数据,也可以分析NGS测序的数据,其核心是通过线性模型去估算不同分组中基因表达量的均值和方差,从而进行差异分析。
01
核心知识点
limma需要的输入文件有:
表达矩阵 (exprSet)(这个容易获得),芯片数据可以通过exprSet(),常规的转录组可以通过read.csv(),read.table()等导入
分组矩阵 (design) :就是将表达矩阵的列(各个样本)分成几组(例如最简单的case-control【通过model