生物信息学基础知识Day3


前言

个人对《R语言与Bioconductor 生物信息学应用》的一些摘录,方便自己日后查阅。


一、序列比对和相似性搜索

序列比对又叫做序列对齐,简单来说就是将两个或多个序列排列在一起,标明其相似之处,进而确定序列之间的相似性。序列比对的理论基础是进化学说,如果两个序列之间具有足够的相似性,就推测二者可能由共同的祖先,经过序列内残基的替换、残基或序列片段的缺失以及序列重组等遗传变异过程演化而来。

1.序列相似和序列同源

序列相似和序列同源是不同的概念,序列之间的相似程度是可以量化的参数,而序列是否同源需要有进化事实的验证。

2.双重比对

序列比对根据比对的序列数量,分为双重比对和多重比对。 在实际工作中,双重比对最常见的用途就是用于数据库相似性搜索。具体来说就是将查询序列(未注释的)和数据库中的备选序列(已有功能等注释信息)做比对,根据设定的相似性阙值,从数据库中存在的亿万条序列中挑选出符合要求的序列,这些序列可以用来提供查询序列的一些未知信息(如功能、结构等),还可用于多重比对,构建进化树。

3.多重比对

多重比对的对象是一组假定具有进化关系的序列,这组序列一般可以通过上面提到的数据库相似性搜索得来。根据多重比对的结果可推导出这些序列间的进化关系。多重比对还经常用来研究序列的保守性,例如蛋白质多重比对可以找到一些高度保守的位点,这些位点可能对蛋白质的结构和功能至关重要,但并不是所有保守的残基都一定是对结构功能起重要作用的,可能他们只是由于历史的原因被保留下来,而不是由于进化压力而保留下来。因此还需要实验和其他方面信息的支持,才能进一步确定。

二、分子进化和系统发生树

1.分子进化

所有生命的蓝图都是以DNA(某些病毒中为DNA)书写的,因而可以通过比较DNA序列来分析它们的进化关系。

2.系统发生树

进化树表明了具有共同祖先的各物种间的演化关系。所谓树,从数据结构角度来讲,实际上是一个无向循环图。系统发生树由一系列节点(Nodes)和分支(Branches)组成;每个节点代表一个分类单位(物种或序列),节点间的连线代表节点之间的进化关系。树的节点又分为外部节点(Terminal node)和内部节点(Internal node):外部节点代表实际观察到的分类单位;内部节点又称为分支点,它代表了进化事件发生的位置,或代表分类单位进化历程中的祖先。根据节点的不同意义,系统树又可以分为物种树(Species tree)、基因树等,前者常常根据物种的表型数据构建,后者才是分子水平的。

3.系统树的构建方法

1.构建系统树的数据类型

构建系统树的数据有两种类型:一种是特征数据,可以是基因序列、个体、群体或物种特征的集合;二是距离数据或相似性数据,它表示了基因序列、个体、群体或物种两两之间的相似性。距离数据可由特征数据计算获得,但反过来则不行。

2.构建系统树的方法

分子水平的系统树构建主要有四种方法。1.距离矩阵法(Distance matrix method),首先先计算每对序列之间的进化距离(例如差异的碱基比例),其准确大小依赖于进化模型的选择,然后运行一个聚类算法,从最相似(两者之间的距离最短)的序列开始构建整个进化树;2.最大简约法(Maximum Parimony,MP),较少涉及遗传假设,它通过寻求序列间最小的改变来完成建树的;3.对于模型的巨大依赖性是最大似然法(Maximum Likelihood,ML)的特征,该方法在计算上繁杂,但为统计推断提供了基础;4.贝叶斯算法(Bayesian Inference of Phylogeny,BI)以MrBays为代表,不过速度较慢,一般的进化树分析中较少应用。

3.常用软件

系统进化树构建和显示方面常用的软件有:PHYLIP、PAUP(MP法常用)、MEGA、MOLPHY8、PAML、PAxML(ML法常用)、PUZZLE、Tree View、phylogeny、PHYML、MrBayes(BI法常用)和Tree of Life等。

总结

所有文章会根据作者的见解日后常常修改。下篇见Day4。要考研啊,这个假期要怎么规划呢?

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值