关于计算机在植物基因上的作用的论文,基于随机森林的植物抗性基因识别方法研究-计算机科学与技术专业毕业论文.docx...

文档介绍:

ClassifiedIndex:TP391Q811.4U.D.C:681DissertationfortheMasterDegreeinEngineeringANAPPROACHFORIDENTIFYINGAPLANTRESISTANCEGENEBASEDONTHERANDOMFORESTCandidate: GuoYingjieSupervisor: Prof.GuoMaozuAcademicDegreeAppliedfor: MasterofEngineeringSpeciality: ComputerScienceandTechnologyAffiliation: puterScienceandTechnologyDateofDefence: June,2011Degree-Conferring-Institution: HarbinInstituteofTechnology摘 要植物抗性基因的研究是目前生物信息学领域重要课题之一。自发现第一个抗性基因至今,已有70余条抗性基因经过生物实验验证,并逐步应用于分子育种、转基因等方面的研究中。越来越多的生物信息人员致力于从已有的测序数据中挖掘植物抗性基因,并分析其功能和作用机制。但目前的挖掘方法尚存在挖掘效率低、假阳性高以及无法发现新的基因家族等问题。因此,本文从分析抗性基因结构出发,结合机器学****方法,对抗性基因挖掘过程中分类工作涉及的若干关键问题进行研究。抗性基因的识别分类工作可归纳为机器学****中的二类分类问题,本文以抗性基因蛋白产物为研究对象,首先分析抗性蛋白数据保守结构域,以及各种理化特性对其抗性功能的影响,提取188维有效特征用于描述抗性蛋白序列。随后使用基于K-Means的聚类降采样算法,对具有严重类别不平衡性抗性基因数据集进行重建,以削弱其不平衡性。最后在重建的训练集上,利用随机森林算法构建可以识别抗性基因的分类器。实验表明,该算法的敏感性接近80%,特异性达到在90%以上,并且在反例集上的测试结果显示,该模型能够有效降低假阳性。因此,本文所提出抗性基因识别方法是有效的。关键词:抗性基因;特征提取;降采样;随机森林AbstractTheresearchtowardsPlantResistance-Genedevelopsasoneofthemostimportanttopicsinbioinformatics.essfullyfound,morethan70R-genehavebeengraduallyverifiedbyconfirmatoryexperimentuntilnow,withapplyingtoMolecularBreeding,Trans-geneandthelike.Besides,moreandmorebioinformaticsresearchersarededicatedtominingresistancegenes,analyzingitsfunctionandbiochemicalmechanisms.However,someproblemsarestillremainssuchasthelowefficiencyofcurrentminingapproachandthehighfalsepositive.Inthisthesis,wehaveanalyzedtheR-genestructureandexploitedthemachinelearningapproachtopredictresistancegene.Inourapproach,wehaveselectedtheproteinsequencesencodedbyR-geneastheresearchobject,convertingtheR-geneidentificationproblemtoaTwo-Classclassificationproblemofmachinelearning.Firstly,wehaveassayedtheconserveddomainsofresistanceprotein,andtheeffectofphysicalandchemicalpropertiesontheproteinsequences,thenagroupof188validfeatureshasbeendefinedtorepresentthesequence.Secondly,wehasutilizedtheunder-samplingapproachbasedontheK-Meansalgorithmtorebuildthetrainingsets,aimingatsolvetheimbalancelearningprobleminR-geneclass

内容来自淘豆网www.taodocs.com转载请标明出处.

内容概要:该题库专为研究生入学考试计算机组成原理科目设计,涵盖名校考研真题、经典教材课后习题、章节题库和模拟试题四大核心模块。名校考研真题精选多所知名高校的计算机组成原理科目及计算机联考真题,并提供详尽解析,帮助考生把握考研命题趋势与难度。经典教材课后习题包括白中英《计算机组成原理》(第5版)和唐朔飞《计算机组成原理》(第2版)的全部课后习题解答,这两部教材被众多名校列为考研指定参考书目。章节题库精选代表性考题,注重基础知识与重难点内容,帮助考生全面掌握考试大纲要求的知识点。模拟试题依据历年考研真题命题规律和热门考点,精心编制两套全真模拟试题,并附标准答案,帮助考生检验学习成果,评估应试能力。 适用人群:计划参加研究生入学考试并报考计算机组成原理科目的考生,尤其是需要系统复习和强化训练的学生。 使用场景及目标:①通过研读名校考研真题,考生可以准确把握考研命题趋势与难度,有效评估复习成效;②通过经典教材课后习题的练习,考生可以巩固基础知识,掌握解题技巧;③通过章节题库的系统练习,考生可以全面掌握考试大纲要求的各个知识点,为备考打下坚实基础;④通过模拟试题的测试,考生可以检验学习成果,评估应试能力,为正式考试做好充分准备。 其他说明:该题库不仅提供详细的题目解析,还涵盖了计算机组成原理的各个方面,包括计算机系统概述、数据表示与运算、存储器分层、指令系统、中央处理器、总线系统和输入输出系统等。考生在使用过程中应结合理论学习与实践操作,注重理解与应用,以提高应试能力和专业知识水平。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值