RepeatMasker安装
省流:
1、步步按照官网流程安装;Download Pagehttps://www.repeatmasker.org/RepeatMasker/
2、trf/RMBlast/HMMER等可以用conda安装,但RepeatMasker不要用conda装;
3、注意RepeatMasker版本和Dfam数据库版本的匹配性,官网有写;
4、注意把RepeatMasker文件夹添加到环境变量中。
我的安装经过
Round1
问题:第一次的时候用conda装了RepeatMasker。用-lib选项添加自己的数据库运行时没有问题,不用lib选项时出现找不到人类基因组中sinecut文件的报错。
寻找方法:在网上查阅到。出错原因是RepeatMasker默认使用人类基因组数据库运行,但conda安装时没有安装完整的人类基因组数据库。网站上说4.0.9版本的RepeatMasker已解决此问题,但conda重装RepeatMasker后,发现conda装的最新版本就是4.0.7的RepeatMasker。
解决:用./configure编译(编译时需要输入rmblast/hmmer/trf等软件的位置,这些软件RepeatMasker自动安装在/home/haoxy/anaconda3/bin目录下),在过程中设置了hmmer为默认搜索引擎。之后运行顺畅。
Round2
按照官网Download RepeatMasker教程安装,部分参考RepeatMasker基因组重复序列检测工具安装及使用-CSDN博客和RepeatMasker(一)——安装及使用-CSDN博客
1、用conda安装trf、rmblast和hmmer(想找到安装路径使用which trf/which rmblastn等命令)
2、在官网上下载repeatmasker并解压缩:
-
gunzip RepeatMasker-open-4-#-#.tar.gz
-
tar xvf RepeatMasker-open-4-#-#.tar
3、在RepeatMasker文件夹内编译:./configure
4、将RepeatMasker文件夹添加入环境变量:
-
vi ~/.bashrc
-
在bashrc中输入export PATH=$PATH:/rd/haoxy/softwares/RepeatMasker
-
source ~/.bashrc
经过上述操作就可以使用RepeatMasker了。可以通过RepeatMasker -h检验是否安装成功。
自动安装只装了很小的数据库,之后可以根据官网教程自行下载数据库。
Round3
准备更新数据库,按官网教程下载Dfam3.8版本数据库(要下特别久),另在网上搜到了RepBase RepeatMasker Edition ( final version 10/26/2018 ),文件名RepBaseRepeatMaskerEdition-20181026.tar.gz。
RepBaseRepeatMaskerEdition-20181026.tar.gz如官网教程拷贝到RepeatMasker文件夹下解压缩,解压出来的两个文件会自动放在RepeatMasker/Libraries文件夹下。(不要在Libraries文件夹中解压缩,那样会自动创建RepeatMasker/Libraries/Libraries文件夹。)
问题:在将dfam38_full.0.h5.gz解压缩并拷贝到Libraries中时,发现没有famdb文件夹。直接考到Libraries中并改名Dfam.h5,出现报错:Building FASTA version of RepeatMasker.lib ...ERROR:__main__:Error reading file: This file cannot be read by this version of famdb.py
尝试按照RepeatMasker安装RepBase和Dfam 3.6不兼容 - 简书 (jianshu.com)解决,不成功。该博客中用的版本已经比较老了,按理说我现在用的版本这种问题已经解决。
解决:最后发现我下载的是4.1.5版本的RepeatMasker,官网上说该版本与Dfam3.8不相容;最新版的RepeatMasker(4.1.6)才与Dfam3.8相容。于是重装4.1.6版本的RepeatMasker,在Libraries中出现了famdb文件夹,将dfam38_full.0.h5直接拷贝到famdb文件夹中。再次在RepeatMasker文件夹中./configure,成功。果然一定要步步按照官网教程装呀!
RepeatMasker结果解读
使用
使用可以看Github https://github.com/rmhubley/RepeatMasker/blob/master/repeatmasker.help,我也不太会。
结果
.out文件每一列的含义可以在UCSC上找到
Tools - Table Browser
点击Data format description
注意:网站上的milliDiv/milliDel/MilliIns三列结果为软件的实际输出结果乘以10(化为了整数)
start/end/left的含义如下:
更正:图片下方“负链”应对转座子为正链,对query为负链。