Shared Gene Expression Alterations in Schizophrenia and Bipolar Disorder
Expression of cilium-associated genes defines novel molecular subtypes of idiopathic pulmonary fibrosis
A.芯片数据的差异分析主要包括三种方法:
1. 倍数分析方法:倍数变换fold change,单纯的case与control组表达值相比较,对没有重复实验样本的芯片数据,或者双通道数据采用这种方法。
2. 参数法分析(t检验):当t超过根据可信度选择的标准时, 比较的两样本被认为存在着差异。但小样本基因芯片实验会导致不可信的变异估计,此时采用调节性T检验。
3. 非参数分析:由于微阵列数据存在“噪声”干扰而且不满足正态分布假设,用t检验有风险。非参数检验并不要求数据满足特殊分布的假设,所以可使用非参数方法对变量进行筛选。如经验贝叶斯法、芯片显著性分析SAM法。
B. 芯片数据的差异分析的常用软件包括:
1. Limma:它是一个功能比较全的包,既含有cDNA芯片的RAW data输入、前处理(归一化)功能,同时也有差异化基因分析的“线性”算法(limma: Linear Models for Microarray Data),特别是对于“多因素实验(multifactor designed experiment)”。limma包的可扩展性非常强,单通道(one channel)或者双通道(tow channel)数据都可以分析差异基因,甚至也包括了定量PCR和RNA-seq。
2. DESeq2和EdgeR包: 都可用于做基因差异表达分析,主要也是用于RNA-Seq数据,同样也可以处理类似的ChIP-Seq,shRNA以及质谱数据。这两个都属于R包,其相同点在于都是对count data数据进行处理,都是基于负二项分布模型。
3. GFOLD软件:对于有生物学重复的数据(一般的转录组数据都会有生物学重复),我们一般采用一个叫edgeR和DEseq的R包。但如果预先测了一批数据没有重复的数据进行一个预分析。这时候edgeR依然可以用,不过需要认为指定一个dispersion值,这样的不同的人就可以有不同的结果,在查阅了很多资料之后呢,大家一致认为没有重复的转录组数据应该用GFOLD软件。