文档介绍:
ClassifiedIndex:TP391Q811.4U.D.C:681DissertationfortheMasterDegreeinEngineeringANAPPROACHFORIDENTIFYINGAPLANTRESISTANCEGENEBASEDONTHERANDOMFORESTCandidate: GuoYingjieSupervisor: Prof.GuoMaozuAcademicDegreeAppliedfor: MasterofEngineeringSpeciality: ComputerScienceandTechnologyAffiliation: puterScienceandTechnologyDateofDefence: June,2011Degree-Conferring-Institution: HarbinInstituteofTechnology摘 要植物抗性基因的研究是目前生物信息学领域重要课题之一。自发现第一个抗性基因至今,已有70余条抗性基因经过生物实验验证,并逐步应用于分子育种、转基因等方面的研究中。越来越多的生物信息人员致力于从已有的测序数据中挖掘植物抗性基因,并分析其功能和作用机制。但目前的挖掘方法尚存在挖掘效率低、假阳性高以及无法发现新的基因家族等问题。因此,本文从分析抗性基因结构出发,结合机器学****方法,对抗性基因挖掘过程中分类工作涉及的若干关键问题进行研究。抗性基因的识别分类工作可归纳为机器学****中的二类分类问题,本文以抗性基因蛋白产物为研究对象,首先分析抗性蛋白数据保守结构域,以及各种理化特性对其抗性功能的影响,提取188维有效特征用于描述抗性蛋白序列。随后使用基于K-Means的聚类降采样算法,对具有严重类别不平衡性抗性基因数据集进行重建,以削弱其不平衡性。最后在重建的训练集上,利用随机森林算法构建可以识别抗性基因的分类器。实验表明,该算法的敏感性接近80%,特异性达到在90%以上,并且在反例集上的测试结果显示,该模型能够有效降低假阳性。因此,本文所提出抗性基因识别方法是有效的。关键词:抗性基因;特征提取;降采样;随机森林AbstractTheresearchtowardsPlantResistance-Genedevelopsasoneofthemostimportanttopicsinbioinformatics.essfullyfound,morethan70R-genehavebeengraduallyverifiedbyconfirmatoryexperimentuntilnow,withapplyingtoMolecularBreeding,Trans-geneandthelike.Besides,moreandmorebioinformaticsresearchersarededicatedtominingresistancegenes,analyzingitsfunctionandbiochemicalmechanisms.However,someproblemsarestillremainssuchasthelowefficiencyofcurrentminingapproachandthehighfalsepositive.Inthisthesis,wehaveanalyzedtheR-genestructureandexploitedthemachinelearningapproachtopredictresistancegene.Inourapproach,wehaveselectedtheproteinsequencesencodedbyR-geneastheresearchobject,convertingtheR-geneidentificationproblemtoaTwo-Classclassificationproblemofmachinelearning.Firstly,wehaveassayedtheconserveddomainsofresistanceprotein,andtheeffectofphysicalandchemicalpropertiesontheproteinsequences,thenagroupof188validfeatureshasbeendefinedtorepresentthesequence.Secondly,wehasutilizedtheunder-samplingapproachbasedontheK-Meansalgorithmtorebuildthetrainingsets,aimingatsolvetheimbalancelearningprobleminR-geneclass
内容来自淘豆网www.taodocs.com转载请标明出处.