利用单拷贝直系同源基因进行构树

1.什么是单拷贝直系同源基因?

单拷贝,即指物种内具有行使相似功能的基因只有一个;直系同源,即指不同物种间具有行使形似功能、序列一致度较高的基因;合起来就是物种间具有相似功能,一致度较高的唯一的基因。举个例子,假设物种A中的基因A可以合成叶绿素,而物种B中的基因B也可以合成叶绿素,两者序列比对有较高的一致度,如果行使功能的基因A和基因B在物种A和物种B中是唯一的,没有其他基因可以取代它们的功能和没有高的同源性,那基因A和基因B就是单拷贝直系同源基因。

直系同源(Orthologs)是指来自于不同物种的由垂直家系,也就是物种形成,进化而来的基因,并且典型的保留与原始基因相同的功能。也就是说,随着进化分支,一个基因进入了不同的物种,并保留了原有功能。这时,不同物种中的这个基因就属于直系同源。

旁系同源(Paralogs)是指在同一物种中的来源于基因复制的基因,可能会进化出新的但与原功能相关的功能来。

2.单拷贝直系同源基因构建进化树的主要步骤如下。

1. 准备好不同物种的序列文件,预测基因组的蛋白序列 prodigal (已知蛋白序列不用)

2. 单拷贝同源基因搜索 orthofinder

用于分析物种基因组中的单拷贝同源基因

使用命令:orthofinder -t 4 -a 2

分析结果的序列ID重新命名一下,可以用seqkit、TBtools等软件批量操作实现。

3. 拼接 将每个物种的单拷贝直系同源基因拼接成一条新的基因序列

可以用Rstudio、seqkit等软件进行操作,当然或许你有更简便的方法实现拼接。

4. 序列比对 mafft

使用命令:mafft --auto --thread 2 --quiet

5. 修剪 trimal 保留比对结果中的保守区域

使用命令--automated1

6. 建树 iq-tree 用于构建系统发育树,也可以用贝叶斯法建树。

使用命令:-st AA -m MFP -nt 4 -bb 5000 -bnni -pre supergene.iqtree -redo

注:以上大部分分析软件都是Linux系统的。倘若分析的物种数量多且基因组数据又大,则分析过程需要消耗的时间和内存也相应更多,需要等待的时间也更长。

  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值