RepeatMasker(http://www.repeatmasker.org/)是Arian Smit等人开发的程序,可以筛选DNA序列中的散在重复序列( interspersed repeats)和低复杂序列(low complexity DNA sequences)。
RepeatMasker 在 UCSC Genome Browser以track方式显示,位于repeats模块。
USSC 截图
rmsk文件下载:
http://hgdownload.cse.ucsc.edu/goldenPath/hg19/database/rmsk.txt.gz
当然,也可以修改参考基因组为hg38
rmsk.txt 包含多列
各列含义为:
染色体上的范围(可快速检索)
比上的 Smith-Waterman 分值
每千碱基不一致的碱基数
每千碱基缺失的碱基数
每千碱基插入的碱基数
基因组名字
基因组上起始位置
基因组上终止位置
基因组剩余未被屏蔽的长度
正负链信息
重复序列名称
重复序列分类
重复序列家族
重复序列上的起始位置
重复序列上的终止位置
重复序列余下的长度
重复序列 id 号
类型主要包括: