生物信息学最最基本的一种分析是基因差异分析,是将样本分为两组,展示两组之间的基因表达的差异,筛选出差异基因进行后续的分析,所以基因差异分析虽然基本却是所有分析的基础,具有相当的重要性。分组不同,差异基因也就可能不同。
目前对于癌症基因分析有三种类型的分组。
一种是癌组织和癌旁组织(近似正常组织)之间的对比分析,这种分析策略的组间差异较大,得到的差异基因难免庞杂,不易分析得到核心的hub基因;
另一种是基于一些预后指标进行分组,比如死亡、远处转移和复发等,使基因分析与重要的临床特征建立了关联,但是这些临床特征往往由多种因素所导致的共同结果,难以分析出单一的基因特征对临床特征进行解释;
第三种分组策略是使用预测变量进行分组,或者某种结局相关的独立危险因素来进行分组。分析获得的hub基因同时与该独立危险因素相关也与筛选独立危险因素的结局变量有关,可用来解释该临床因素成为独立危险因素的基因特征,同时也解释结局变量发生的部分原因,比如使用年龄进行分组而获取年龄相关的基因特征或者使用肿瘤局部淋巴结转移分期进行分组而获取相关的基因特征等等。我们也正在采用这种分组策略,对食管癌远处转移及其的独立危险因素相关的基因进行分析。该策略的应用是使用SEER数据库和TCGA数据库进行联合分析,因为TCGA收集样本时同时收集了相对应的临床信息。通过SEER数据库较大规模的数据分析出癌症远处转移或者死亡结局的独立危险因素,然后使用独立危险因素进行分组来获取差异基因,比如SEER数据库分析出食管癌中AJCC T4分期是独立危险因素,可以作为观察组,而T1-T3可以作为对照组, 然后下载TCGA数据库的基因数据和临床数据按照上述策略分为两组进行基因分析。
有时间的情况下,三种策略都可以进行尝试。