安装略。
$~/BuildDatabase -name HAt2db racon3.pilon3.fa
构建fa 的数据库。
$~/RepeatModeler -database HAt2db -threads 4 -LTRStruct
调用LTR对基因组进行预测。
导出目标非模式物种的对应上下节点Repeat families
Dfam库以及RepBase库中大多数物种都是模式物种,对于非模式物种,有两种策略进行注释:
- 使用已有homology-based库中的近源物种,直接使用该物种的库进行注释。
- 使用RepeatModeler2鉴别出的De novo序列加上homology-based库中部分序列进行注释(这里的“部分”指的是该类群祖先及衍生节点的序列families,当然,如果需要控制变量,也可以只用祖先节点的共有序列)。
本文只讨论第二种方法。因为注释会更加完整一些。RepeatMasker4.1.1可以使用famdb.py来访问构建的RepeatMaskerLib.h5数据库。famdb.py就在RepeatMasker文件夹里。
$~/software/RepeatMasker/famdb.py -i ~/software/RepeatMasker/Libraries/RepeatMaskerLib.h5 lineage -ad Evosea
查找并导出Evose及其上祖先节点、其下所有类群的repeat families
$~/software/RepeatMasker/famdb.py -i ~/software/RepeatMasker/Libraries/RepeatMaskerLib.h5 families -f embl -ad Evosea >Evosea_ad.embl
将embl格式转化为fasta格式,方便后期与RepeatModeler2结果合并
$~/software/RepeatMasker/util/buildRMLibFromEMBL.pl ~/software/RepeatMasker/Evosea_ad.embl>Evosea.fasta
整合de novo预测数据库及homology-based数据库
$cat Evosea.fasta HAt2db-families.fa > all_HA_final.fa
RepeatMasker注释
$~/software/RepeatMasker/RepeatMasker -xsmall -poly -s -e rmblast -pa 4 -lib all_HA_final.fa -html -gff racon3.pilon3.fa 1>log.o.txt 2>log.e.txt