1.简介
重复序列的屏蔽意味着将它们标记为不可见或忽略的区域,从而避免对重复序列进行注释或将其识别为独立的基因。 有多种工具对重复序列执行屏蔽操作,如RepeatMasker、RepeatModeler、REPET等。 每个工具都有自己的特点,有些可以针对特定的基因组进行训练,有些依赖于现有的重复元素数据库(Dfam、RepBase)。 这些工具的输出通常由一个fasta文件组成(有时还包含一个BED或GFF文件,其中包含每个重复的位置)。
基因组组装完成后,需要对基因组进行注释。对于高等真核生物,由于重复序列占了相当大的比例,会影响基因预测的质量,也会带来不必要的资源消耗。因此在基因预测前,首先要检测并屏蔽基因组中的重复序列。
重复序列可分为串联重复序列和散在重复序列两大类:
串联重复序列包括有微卫星序列,小卫星序列等等;
散在重复序列又称转座子元件,包括以DNA-DNA方式转座的DNA转座子和反转录转座子,常见的反转录转座子类别有LTR(Copia and Gypsy),LINE和SINE等。
2.软屏蔽和硬屏蔽
有两种类型的屏蔽,产生稍有不同的fasta输出:
软屏蔽 :屏蔽的重复序列被转换为小写字母,其他序列始终保持大写
硬屏蔽 :屏蔽的重复序列被连续的字母N取代,其他序列始终保持大写
3.鉴定基因组重复区域的方法
(1)基于文库的同源方法(序列比对方法)。----RepeatMasker
(2)从头预测的方法。----RepeatModeler
基于文库同源方法将基因组与已知重复序列的数据库进行同源搜素,识别基因组中的重复序列,准确而快速。但依赖于数据库本身,只能通过已知特定类型的重复序列寻找相似的区域,当基因组差异过大,特别是新物种时,很多未知重复序列将难以识别。
从头预测方法直接从现有的全基因组序列中根据元件的结构或功能特征等训练模型,构建重复序列集,不依赖于其它数据库,可以有效识别出新的重复序列结构类型。但是比较费时,且也容易产生错误识别。
重复序列的鉴定具体过程 参考文章 重复序列的鉴定