计算机应用唐家琪,基于机器学习的蛋白质相互作用预测研究

摘要:

蛋白质对于任何生命而言有着不可或缺的作用,并且大部分的生物功能是借助蛋白质和其它蛋白质之间进行的相互作用来实现的.因此,对于蛋白质相互作用的研究是具有重大意义的.在生物信息学的崛起过程中,关于如何预测蛋白质之间是否具有相互作用关系形成了两个方向:实验方法和计算方法.由于近年来机器学习技术的有效性不断得到验证,采用机器学习相关技术进行蛋白质相互作用预测的研究成为一个新的研究范畴.借助机器学习技术进行蛋白质相互作用的预测关键在于数据处理和分类算法两个步骤,本文将蛋白质相互作用看成分类问题,采用集成学习的方法进行预测.本文的研究内容包括:(1)数据集的收集.从公共权威的DIP数据库获取可靠性高的正例数据集,包括了 8个不同物种一共81731条蛋白质组成的62280个蛋白质相互作用对.反例数据集一共有三个,包括一个现有的唯一的反例数据库和两个人工构造的反例集.由于正反例数据不平衡,我们提出基于K-Means聚类的采样算法对正例进行降采样.实验结果表明Negatome数据集和AminoAcidsReorder数据集是有效的.(2)特征提取和特征选择.对获取到的蛋白质序列进行编码,基于蛋白质的一级结构,二级结构以及理化性质,我们一共提出5种特征提取方法.然后融合5种特征,采用本文提出的最大相关最大距离以及基于Z检验的特征选择方法选择出有效的特征,实验结果表明利用这两种特征选择方法进行特征选择都能有效提高分类器的性能.(3)集成学习.研究表明,基于基分类器的集成学习是有效的学习策略.在本文,通过J48决策树构建了四种不同的集成分类器进行蛋白质相互作用的预测.实验结果表明LibD3C和Random Forest两个分类器的效果最佳.最好的结果在F1测量值指标上可以达到0.99以上.

展开

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值