RepeatMasker是一款专门用于基因组重复序列识别注释,并分类统计的软件,几乎用于所有物种。是研究基因组、非编码RNA、转座子和着丝粒领等相关领域的必备软件。很多small RNA, lncRNA与Repeat区有密切关系。
之前我在2013在PLOB发布过《RepeatMasker安装方法与使用
》,阅读近7000次。相关百度云中Repbase也被下载几千次。但目前软件和数据库均更新很多次,旧版在主流系统安装也会出一些问题,重复序列发现种类也已经翻倍,故重发新版软件安装和使用方法。
软件安装与配置
本次安装环境为 Ubuntu 16.04.2 x64,所有相关软件和数据库全为文章发布时最新版。本文是以Root权限安装提供服务所有用户使用,没有权限的小伙伴只需将软件下载安装在自己的文件夹内,配置repeatmasker时设置所有相关软件的位置即可,不会设置环境变量的一律使用程序完整路径名运行RepeatMasker即可。
1. RMBlast序列搜索引擎
http://www.repeatmasker.org/RMBlast.html
2.6.0 ver 2 2017-3-29
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 13
- 14
- 15
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 13
- 14
- 15
2. TRF(Tandem Repeat Finder)搜寻串联重复序列
http://tandem.bu.edu/trf/trf.download.html
4.09 2016-2-22
最新版4.09,本操作系统需要安装其中的legacy的64位版才能运行
- 1
- 2
- 3
- 4
- 5
- 6
- 1
- 2
- 3
- 4
- 5
- 6
3. RepeatMasker程序
http://www.repeatmasker.org/RMDownload.html
4.0.7 2017-2-1
- 1
- 2
- 3
- 1
- 2
- 3
4. Repbase数据库
http://www.girinst.org/server/RepBase/index.php
需要注册才能下载,人工审批,可能要等两天。
RepBaseRepeatMaskerEdition-20170127.tar.gz (48.84 MB)
也可以在我的百度网盘下载,并上传服务器至RepeatMasker下载的相同目录。
http://pan.baidu.com/s/1c2zSMKo
- 1
- 2
- 3
- 1
- 2
- 3
5. 配置RepeatMasker依赖关系
- 1
- 2
- 3
- 4
- 1
- 2
- 3
- 4
软件使用实例
1. 以拟南芥, 短柄草基因组为例
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 13
- 14
- 15
- 16
- 17
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 13
- 14
- 15
- 16
- 17
运行开始会显示数据库的发布时间版本和物种特异数据信息,需 注释核对
( Complete Database: dc20170127-rb20170127 )
Building species libraries in: /mnt/bai/public/bin/RepeatMasker/Libraries/dc20170127-rb20170127/brachypodium
- 201 ancestral and ubiquitous sequence(s) for brachypodium
- 282 lineage specific sequence(s) for brachypodium
2. 结果文件说明
*代表你基因组的名字
1. *.out.gff:重复序列基因组注释文件,与基因注释类似,最重要结果
- 1
- 2
- 3
- 4
- 1
- 2
- 3
- 4
- *.tbl:重复序列注释结果报告信息汇总表格 overview
- *.out.html: 网页版结果详细,同RepeatMasker在线注释结果报告
- *.masked: 将注释为重复序列区的大项替换为N的基因组
- *.out:RepeatMasker默认输入结果格式,信息基本与gff相关
- *.cat.gz: 序列与重复序列比对的文件
软件安装使用常见问题
1. RMBlast安装问题
- NCBI自从2013年2.2.28后再没有更新过rmblast ftp://ftp.ncbi.nlm.nih.gov/blast/executables/rmblast/LATEST ,我尝试安装源码包在Ubuntu16.04是无法安装的;
- 在RepeatMasker的页面上有最近ncbi-blast-2.6.0+-src源代码和补定,按要求安装,即本文中的操作,make编辑成功,但make install有错误,不过关键程序rmblastn已经成功,可正常使用;
- 如果新版安装失败,可尝试安装2.2.28的预译版
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
如果安装成功了2.2.28,则配置repeatmasker中rmblast位置则改为/usr/local/rmblast-2.2.28/bin/rmblastn
2. trf运行报错
是由于Linux legacy GLIBC的版本兼容性问题,故作者提供了两个版本,原文中的如果不可用,试试下面另一个版本
- 1
- 2
- 3
- 1
- 2
- 3
3. Rpeatmasker运行时找不到依赖程序
是RepeatMasker文件中./configure步骤设置错了,再新再一次,仔细核对每个依赖程序的位置,即可正常运行。
前提是你先运行下相关依赖的程序是否可以运行!
4. 没有结果目录及结果
添加了-dir 指定输出目录,但没有结果
- 1
- 1
你一定是忘记建立结果文件夹了,程序不会自己建目录,mkdir repeat是必须的。你有两个选择,要么提前建文件夹,要么直接不用-dir result参数,把结果全都输出至当前目录。