java自举_自举检验(bootstrapping)介绍

自举检验是评估基因树中分支可靠性的常用方法,通过对原始数据进行放回式抽样构造多个数据集,重新构建基因树。在基因树分析中,如果某个分支在多数自举样本中出现,表明其可靠性较高;反之,则可靠性较低。例如,图17.1C中的分支顺序在自举样本中支持率不足50%,暗示分类单元分开时间相近,无法确定先后顺序。
摘要由CSDN通过智能技术生成

基因树是对一组序列进化关系真实模式的一个估计. 说基因树是一种估计,是因为在置换数目上存在随机变异,因而真实的基因树是未知的. 可以料到,在基因树中,短的分支比长的分支不可靠.

那么可用什么标准来评价某一特定分支顺序的可靠性呢?例如,在图17.1C中,那些数据是否真的可以将Mo/Ha谱系与Hu/Ba/Co/Sh谱系之前的共同祖先分割开呢?

2bea83ed87db39f5338c88c63884ceb3.png

评价基因树中某个节点的可靠性的一种常用方法,称为自举法(bootstrapping).在该法中,通过随机选择位点,从实际数据中构造出1000个或更多个不同的数据集. 自举抽样是以放回式抽样的方式进行的,这意味着同一个位点可偶然被选中

两次或多次. 因而,来自图17.1A中的序列的一个自举样本,是一个以放回抽样方式随机选择的50个位点的样本. 在一个特定的容量为50的自举样本中,预计18个位点会出现1次,9个位点会出现2次,5个位点会出现3次或3次以上,而有18个位点根

本不会出现. 因此,如果基因树中的某种分支方式被序列中大多数的位点支持,则从大多数自举样本得来的基因树会包含同样的分支方式,但如果支持某种分支方式的位点数相对较少,则来自许多自举样本的基因树将不包括这种分支方式.

在图17.1C的基因树中,在1000个自举样本中,支持阴影区所包括的分支顺序的样本不足50%.从实践上来说,此结果表明,就该蛋白质的这一小段而言,Hu/Ba、Co/Sh和Mo/Ha类群分开的时间非常接近,尚不能解决哪一个分类单元首先分开

的问题。

以下是详细图解:

9f7149fc383267ba0f1cae86a0f37088.png

09f36d48280d11d56678bd45282a8689.png

cdfda1ae8bd4165d021de49dd815a54b.png

2581b082a96bf30e0bed6452e1757a8b.png

0ef3ec81bd6213584a370a17a4d0044c.png

1f8dbb39bb4bc4e42c6026819f3c1b20.png

a8b46fb3071e30430a9c08b5efa6e535.png

f35650e4c8469dfb1debe44f3fc1169b.png

51014dddcda7861a193d3ae0df2d3399.png

f7ed5e4544b14070ae0bcbaf36068bd0.png

25cac63c2af3f59c35a7ac8a1482dc92.png

36b154cf37b61eb385e30892968dd774.png

c7da48194612e6d7f37612cbc5942fd6.png

eb3d2f6fbe2d7ebd062cea8885e9e198.png

93a82cc2c28fbbd7bc0801113a8d141f.png

18a9157f452908bfbb60401fb0897832.png

c0a7c99969010bd21347a4ad2419a498.png

参考资料:

【1】Genetics Analysis of Genes and Genomes, Daniel L. Hartl,Maryellen Ruvolo

【2】西北农林科技大学庞红侠老师生物信息学课堂PPT

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值