homoeolog的概念
从文字定义上来了解 —— 什么是homoeolog?
指由物种形成事件(e.g. 杂交)导致将原本分化的gene或者chromosome又重新融合进了一个基因组的情况。
一次物种形成事件,形成了物种A和物种B,经过几百万年之后,物种A和物种B的杂交种,生成了一个物种C。物种C基因组内,对应物种A和物种B同源的基因/染色体组分,即为homoeologs
上述“重新融合”一般指异源多倍体的形成。
从流程图的形式来进一步明晰概念。
什么是positional homoeology?
在下述情况中,gene或染色体之间的同源关系被称为positional orthology
- 经过一次物种形成事件而形成的物种A和物种B
- 异源二倍体
positional homoeology,是在异源多倍体中的称呼。
homoeologs、orthologs、ohnologs、paralogs之间的概念差别
还是一张图解决问题:
需要注意的是,当我们不知道一个物种是如何形成的时候(e.g. 同源或者是异源),我们可以使用“paleolog”去指代对应基因的关系。
如何推断homoeologs?
可以从干湿两个角度解决问题。
(1)湿实验方法
使用杂交探针的方法,对目的同源序列进行捕获。但是由于homoeologs序列和paralogs这2种序列之间存在较大的相似性,最终得到的结果就会是一摊不知来源的DNA。
上述问题的解决方案:
1、cloning + 序列比对:将经过PCR的高度相似的homoeologous DNA转入到bacteria中,再将bacteria进行分离 & 测序,最终比对到二倍体祖先的基因组上。
需要注意的是,很多情况下,二倍体祖先都不一定存在了,真正的二倍体祖先极有可能是祖先二倍体的一些杂交子代。
2、使用限制酶 + 电泳 + bacteria cloning:先使用限制酶,对得到的homoeologous DNA进行酶切(由于演化速率上的差异,细微的碱基类型改变,导致限制酶无法识别酶切位点),得到不同片段的DNA,再将这些序列进行电泳分离,最终可以使用基于bacteria cloning的方法对homoeologous序列进行扩增。
3、基于PCR primers的获取方法
4、基于基因组DNA的array
(2)生物信息学方法
1、Comparative Mapping and Positional Homoeology
通过将reads比对到近缘二倍体物种(diploid relatives)或非整倍体,对homoeologs进行识别。
需要注意的是,上述方法假定homoeologous sequence的位置是固定的,因此单纯使用这个方法就会出现丢失很多结果(e.g. 由duplication产生的homoeologous序列)
这部分的额外信息:
原位置上的orthologous gene具有更慢的演化速率,受自然选择压力更小,具有更高的基因表达量等
2、Similarity-Based Computational Techniques
将序列组装到contig水平,对contig copies进行分析(e.g. 异源四倍体棉花的contig copies数一般为4,其中2个来自祖先,另外两个是homoeologs),决定哪些序列是homoeolog。
此处需要注意的是,对于不同倍性的物种,对应contig的拷贝数也不同。
对homoeologs鉴定完成之后,就需要将他们重新比对会参考基因组,推断他们属于哪些亚基因组(这部分需要用到RNA-Seq,因为contig copies的gene expression是不同的)。该方法需要祖先物种的参考基因组已知。
上述方法存在的缺点是:只能建立一对一的homoeologs关系,丢失了gene duplication等信息。
3、Evolution-Based Computational Techniques
这部分对应分为2种方法:
- 基于系统发育树的推断方法
- 基于graph的推断方法
基于系统发育树的推断方法,认为
- 在物种形成节点的gene对,是orthologs
- 在gene duplication节点的gene对,是paralogs
而基于graph的推断方法,本质是根据序列之间的相似性进行聚类,有以下2种依据:
- BBHs。该方法的缺点是,其基于BLAST,一般只能找到最优比对结果,因此无法实现一对多或多对多的homoeologs查找。这在具有比较高比例重复序列的基因组中会是一个问题。
e.g. MCScanX - Orthologous Matrix(OMA) database。需要注意的是,该方法是将同一物种内的亚基因组,认为是不同物种的基因组。