芯片数据的差异分析主要包括三种方法 ANCOVA进行差异分析为何不用deseq2

本文链接：https://blog.csdn.net/qq_52813185/article/details/127240152

Shared Gene Expression Alterations in Schizophrenia and Bipolar Disorder

Expression of cilium-associated genes defines novel molecular subtypes of idiopathic pulmonary fibrosis

A.芯片数据的差异分析主要包括三种方法：

1. 倍数分析方法：倍数变换fold change，单纯的case与control组表达值相比较，对没有重复实验样本的芯片数据，或者双通道数据采用这种方法。

2. 参数法分析（t检验）：当t超过根据可信度选择的标准时, 比较的两样本被认为存在着差异。但小样本基因芯片实验会导致不可信的变异估计，此时采用调节性T检验。

3. 非参数分析：由于微阵列数据存在“噪声”干扰而且不满足正态分布假设，用t检验有风险。非参数检验并不要求数据满足特殊分布的假设，所以可使用非参数方法对变量进行筛选。如经验贝叶斯法、芯片显著性分析SAM法。

B. 芯片数据的差异分析的常用软件包括：

1. Limma：它是一个功能比较全的包，既含有cDNA芯片的RAW data输入、前处理（归一化）功能，同时也有差异化基因分析的“线性”算法（limma: Linear Models for Microarray Data），特别是对于“多因素实验（multifactor designed experiment）”。limma包的可扩展性非常强，单通道（one channel）或者双通道（tow channel）数据都可以分析差异基因，甚至也包括了定量PCR和RNA-seq。

2. DESeq2和EdgeR包: 都可用于做基因差异表达分析，主要也是用于RNA-Seq数据，同样也可以处理类似的ChIP-Seq,shRNA以及质谱数据。这两个都属于R包，其相同点在于都是对count data数据进行处理，都是基于负二项分布模型。

3. GFOLD软件：对于有生物学重复的数据（一般的转录组数据都会有生物学重复），我们一般采用一个叫edgeR和DEseq的R包。但如果预先测了一批数据没有重复的数据进行一个预分析。这时候edgeR依然可以用，不过需要认为指定一个dispersion值，这样的不同的人就可以有不同的结果，在查阅了很多资料之后呢，大家一致认为没有重复的转录组数据应该用GFOLD软件。