生物信息学简介 -整理综合

生物信息学是一门利用计算机技术研究生物系统之规律的学科。它建立在分子生物学的基础之上,并以计算机为工具对生物信息进行存储、检索和分析。其研究重点体现在基因组学和蛋白质组学两个方面,具体来说就是从核酸和蛋白质序列出发,分析序列中表达的结构功能的生物信息。生物信息学是当今自然科学与生命科学的重大前沿科学之一。

一、 发展历程

1866年孟德尔从实验上提出了基因是以生物成分存在的假设,5年以后Miescher从死亡的白细胞核中分离出DNA,1944年Avery和McCarty证明了DNA是生命器官的遗传物质,同年Chargaff发现DNA中鸟嘌呤的量与胞嘧啶的总量总是相等,腺嘌呤与胸腺嘧啶的量相等。同时,Wilkins与Franklin用X射线衍射技术测定了DNA纤维的结构。1953年James Watson和Francis Crick推测出DNA的双螺旋结构,DNA是以磷酸糖链形成的双股螺旋结构,脱氧核糖上的碱基按Chargaff规律构成的双股磷酸糖链之间的碱基对。这个模型表示DNA具有自身的互补结构,根据碱基对原则,DNA中贮存的遗传信息可以精确地进行复制。1954年Crick提出了中心法则(Central dogma),揭示了遗传信息的传递规律,即DNA是合成RNA的模板,RNA又是合成蛋白质的模板,其对分子生物学和生物信息学的法则都起到了极其重要的指导作用。分子生物学揭示了生命科学中的微观世界,对生命科学的发展起了巨大的推动作用。在分子生物学的研究过程中,产生了大量的生物信息数据,对大量生物信息数据的存储检索和分析可以借助计算机,因此分子生物学与计算机科学、数学、信息技术等学科交叉形成的生物信息学成了一种必然的趋势。

随着人类基因组工程测序的完成,生物信息学的研究又走向了一个高潮,在DNA自动测序技术的快速发展的推动下,DNA数据库中的核酸序列公共数据量飞速增长迅速膨胀。这使得我们面临着大量数据的组织和存储、检索的困难,而在巨大的数据量往往蕴含着潜在突破性发现的可能。在这种背景下就产生了生物信息学这一交叉学科。简单地说,该领域的核心内容是研究如何通过对DNA序列的统计计算分析,更加深入地理解DNA序列、结构、演化及其与生物功能之间的关系,其研究设计到分子生物学、分子演化及结构生物学,统计学及计算机科学与技术等诸多领域。

二、 研究现状简介

生物信息学作为一门新兴的交叉学科领域,在短短的二十年的发展过程中,形成了如序列对比、蛋白质结构对比和预测、序列重叠群装配、代谢网络分析等多个研究方向。

1. 序列对比

序列对比(Sequence Alignment)的基本问题是比较两个或者两个以上符号的相似性或者不相似性。序列对比考虑了DNA序列的生物学特性,如局部发生的插入、删除和替代,序列的目标函数获得序列之间突变集最小距离加权和或最大相似性和,对齐方法包括全局对齐,局部对齐,代沟惩罚等。通常采用的算法有动态规划算法,在序列长度较小的时候动态规划算法适用。然而当基因序列的数据量非常大的时候,这一方法就不太适用,甚至采用线性复杂度的算法也难以凑效。因此在序列对比中引入了启发式算法,如著名的BALST和FASTA算法。

2. 蛋白质结构对比和预测

蛋白质结构对比和预测是比较两个或者两个以上蛋白质分子空间结构的相似性或不相似性。一般认为,具有相似功能的蛋白质结构一般相似。蛋白质是由氨基酸组成的长链,具有多种功能,如酶,物质的存贮和运输,信号传递,抗体等等。我们可以通过研究蛋白质结构对比和预测:在医药上可以理解生物的功能,寻找docking drugs的目标,在农业上可获得更好的农作物的基因,工业上有利于酶的合成。因为蛋白质的3维结构比其一级结构在进化中更稳定的保留,所以直接对蛋白质结构进行比对。蛋白质3维结构研究的有着如下一个假设,既内在的氨基酸序列与3维结构一一对应。

蛋白质结构的预测指的是从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构,其本质是一个组合优化问题。同源建模(homology modeling)用于寻找具有高度相似性的蛋白质结构(超过30%氨基酸相同),指认(Threading)则用于比较进化族中不同的蛋白质结构。然而,蛋白结构预测研究现状还远远不能满足实际需要。

3. 序列重叠群装配

受到现行的测序技术的限制,每次反应只能测出500 或更多一些碱基对的序列,如在人类基因的测量过程中就采用了短枪(shortgun)方法,这就要求把大量的较短的序列全体构成了重叠群(Contigs)。逐步把它们拼接起来形成序列更长的重叠群,直至得到完整序列的过程称为重叠群装配。这个过程从算法层次来看,序列的重叠群是一个NP-完全问题。

4. 代谢网络分析(Metabolic network)

  代谢网络是将细胞内所有生化反应表示为一个网络,反映了所有参与代谢过程的化合物之间以及所有催化酶之间的相互作用,是对细胞代谢过程的抽象表达。由于在生命过程中代谢活动在是不断发生的,代谢网络随时变化。由于大量反应的动力学参数都是未知的,使得其动力学研究受到限制,而基于网络拓扑结构的静态分析得到了广泛的应用。静态的代谢网络分析主要有三类研究方法:流平衡分析;基元模式分析和极端途径分析;图论方法。

5. 基于结构的药物设计

人类基因工程的目的之一是要了解人体内约10万种蛋白质的结构、功能、相互作用以及与各种人类疾病之间的关系,寻求各种治疗和预防方法,包括药物治疗。基于生物大分子结构及小分子结构的药物设计是生物信息学中的极为重要的研究领域。为了抑制某些酶或蛋白质的活性,在已知其蛋白质3级结构的基础上,可以利用分子对齐算法,在计算机上设计抑制剂分子,作为候选药物。这一领域目的是发现新的基因药物,有着巨大的经济效益。

6. 生物信息学技术方法

生物信息学中产生的海量数据和复杂的背景导致机器学习、统计数据分析和系统描述等方法需要在生物信息学所面临的背景之中迅速发展。巨大的计算量、复杂的噪声模式、海量的时变数据给传统的统计分析带来了巨大的困难, 因此提出了非参数统计、聚类分析等更加灵活的数据分析技术。在高维数据的分析中引入了偏最小二乘(partial least squares,PLS)等特征空间的压缩技术。在计算机算法的设计时,需要充分考虑算法的时间和空间复杂度,使用分布式并行计算、网格计算等技术来实现高效的算法。

 

三、 前景展望

生物信息学是一门利用计算机技术研究生物系统之规律的学科。自从人类基因组计划开展后, 大量的生物基因序列被测定, 如何从这些海量的数据中发现其生物学意义, 就需要借助计算机数据库和计算机算法分析预测的手段。生物信息学的发展在国内外基本上都处在起步阶段, 所拥有的条件也大体相同。那么谁能够更充分更高效更快捷地利用信息科学、控制科学、计算机科学等高技术手段来分析和理解数据, 谁就能最先发现新线索、新现象和新规律, 也是其在生物信息学研究领域取得领先地位的先决条件。生物信息学是一门非常有发展远景的科学, 现代信息技术则是它不可或缺的研究手段。

  • 6
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值