摘要:
蛋白质是执行生物体内各种重要生物活动的大分子,认识其功能对推动生命科学、农业、医疗等领域的发展意义重大。传统的生物实验测定蛋白质的功能需要消耗大量的人力、物力、财力,并且效率低下,已无法满足数量日益增长的蛋白质序列的功能注释。故需要通过计算的方法预测蛋白质的功能,为生物实验提供理论指导,从而降低实验成本。随着高通量生物实验技术的发展,产生了海量的蛋白质相互作用(Protein-Protein Interaction,PPI)数据,基于蛋白质相互作用网络(简称PPI网络)的功能预测方法受到了越来越多研究者的关注,已成为后基因组时代生物信息学的一个研究热点。本文针对基于PPI网络的蛋白质功能预测方法展开研究,主要内容如下:(1)提出一种基于机器学习(层次聚类、主成分分析和多层感知器)的蛋白质功能预测方法HPMM。该方法综合考虑蛋白质宏观和微观层面的信息,将蛋白质家族、结构域和重要位点信息作为顶点属性整合到PPI网络中以减轻网络中数据噪声的影响。首先,基于层次聚类和主成分分析进行特征提取,得到功能模块和属性主成分特征,然后训练多层感知器模型,建立多特征与多功能之间的映射关系以用于功能预测。在三个分别被分子功能、生物过程和细胞组件注释的人类PPI网络上进行测试,对HPMM、余弦迭代算法(CIA)和有向PPI网络基因本体术语传播(GoDIN)算法的功能预测效果进行比较分析。实验结果表明,相较于CIA和GoDIN这两种完全基于PPI网络的方法,HPMM的微正确率、微查准率与微F1更高。(2)提出了双加权投票蛋白质功能预测算法BiWV。该算法通过构建蛋白质影响权重矩阵和功能影响权重矩阵,分别从蛋白质和功能术语角度进行加权投票来进行预测。在此基础上整合生物通路信息,提出带生物通路的双加权投票算法BiWV-P。在人类和酿酒酵母数据集进行测试和评价。实验结果显示,BiWV和BiWV-P能够有效预测蛋白质的功能,并且在多个数据集上微正确率与微F1均高于直推式多标签分类器(TMC),非平衡双随机游走(UBiRW),混合图上随机游走蛋白质功能预测(ProHG)这三种同类方法。综上所述,本文基于网络分析对蛋白质功能预测方法进行研究,提出了基于机器学习的蛋白质功能预测方法HPMM、基于双加权投票的蛋白质功能预测算法BiWV及带生物通路的双加权投票算法BiWV-P。在多个指标和数据集上的实验结果表明,本文提出的方法能够有效预测蛋白质的功能,为生物实验提供理论指导。
展开