第八周研究总结
本周看了一篇论文Extraction of Informative Genes from Microarray Data
因为人类疾病的产生伴随着一些特定的基因表达的改变,因此很多研究者都在研究是否基因表达数据和分类预测方法论能够比标准病理学更客观、明确分类不同类型的肿瘤样本。
最近在DNA微阵列技术的进展使科学家能够在测量大量基因表达水平的同时,确定那些基因在正常或者癌组织是否活跃或者沉默,这样会产生大量数据,所以需要一种新的分析方法来识别在癌组织和正常组织上有不同表达的基因。
微阵列数据中信息型基因的提取(为了能够更准确的诊断癌症)
病人样本中有大量的基因数据,所以从中鉴别能够预测癌症的基因很困难。运用PMBGA,把SVM用作分类器,能获取小型的基因片段,更加精确地将病人样本分类。(比用KNN作为分类器获得更好的结果,SVM很好地适用于基因表达的广泛模式的分析,并且用SVM做分类器的方法在分类精度上优于ranking based geneselection method)
基因选择算法
不同的PMBGA呈现不同的变量结构并相应地计算概率分布
PMBGA的成功取决于它学习来自于已选择个体的变量的结构的能力
PMBGA能够减少不同个体的基因数量,但保持不同代的多样性
此算法中,一个基因是否被选择取决于p(xi, t)
初代基因片段的生成时通过设置被选基因的p(xi, t)为0.5,然后遵循以下规则
(1)
接下来,概率的更新是通过得来,
α被叫做学习率,通常会在初始化的过程中固定一个值,但是通过大量实验得出这种方法最终获得的不是我们所想要的很少的基因,因此新的概率计算方法
(3),此方法得到比PBIL更少的基因。
边缘分布:(4)
基因子集的评估
基因选择的整体算法:
基因选择算法的终止标志:在连续10代最好个体的适应值没有进展或者一代中最大的值已经过去。
目前还没有发现任何基因能够没有错误的分类每个数据集的所有样本。