RepeatModeler+Repeatmasker

安装略。

$~/BuildDatabase -name HAt2db racon3.pilon3.fa 

构建fa 的数据库。

$~/RepeatModeler -database HAt2db -threads 4 -LTRStruct

 调用LTR对基因组进行预测。

导出目标非模式物种的对应上下节点Repeat families

Dfam库以及RepBase库中大多数物种都是模式物种,对于非模式物种,有两种策略进行注释:

  1. 使用已有homology-based库中的近源物种,直接使用该物种的库进行注释。
  2. 使用RepeatModeler2鉴别出的De novo序列加上homology-based库中部分序列进行注释(这里的“部分”指的是该类群祖先及衍生节点的序列families,当然,如果需要控制变量,也可以只用祖先节点的共有序列)。

本文只讨论第二种方法。因为注释会更加完整一些。RepeatMasker4.1.1可以使用famdb.py来访问构建的RepeatMaskerLib.h5数据库。famdb.py就在RepeatMasker文件夹里。

$~/software/RepeatMasker/famdb.py -i ~/software/RepeatMasker/Libraries/RepeatMaskerLib.h5 lineage -ad Evosea

 查找并导出Evose及其上祖先节点、其下所有类群的repeat families

$~/software/RepeatMasker/famdb.py -i ~/software/RepeatMasker/Libraries/RepeatMaskerLib.h5 families -f embl -ad Evosea >Evosea_ad.embl

将embl格式转化为fasta格式,方便后期与RepeatModeler2结果合并

$~/software/RepeatMasker/util/buildRMLibFromEMBL.pl ~/software/RepeatMasker/Evosea_ad.embl>Evosea.fasta

整合de novo预测数据库及homology-based数据库

$cat Evosea.fasta HAt2db-families.fa > all_HA_final.fa

RepeatMasker注释

$~/software/RepeatMasker/RepeatMasker -xsmall -poly -s -e rmblast -pa 4 -lib all_HA_final.fa -html -gff racon3.pilon3.fa 1>log.o.txt 2>log.e.txt

非模式生物重复序列注释 RepeatModeler2+RepeatMasker4 - 简书 (jianshu.com)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值