基因组注释-重复序列的屏蔽

最新推荐文章于 2023-11-29 11:44:22 发布

生信学习小达人

最新推荐文章于 2023-11-29 11:44:22 发布

阅读量1.1k

点赞数

分类专栏：注释文章标签：服务器

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hgz2020/article/details/133913623

版权

注释专栏收录该内容

5 篇文章

订阅专栏

本文介绍了基因组中重复序列的屏蔽策略，区分了软屏蔽和硬屏蔽，以及两种主要的鉴定方法：基于文库同源的RepeatMasker和从头预测的RepeatModeler。着重讲述了这两种方法的优缺点及应用场景。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.简介

重复序列的屏蔽意味着将它们标记为不可见或忽略的区域，从而避免对重复序列进行注释或将其识别为独立的基因。有多种工具对重复序列执行屏蔽操作，如RepeatMasker、RepeatModeler、REPET等。每个工具都有自己的特点，有些可以针对特定的基因组进行训练，有些依赖于现有的重复元素数据库（Dfam、RepBase）。这些工具的输出通常由一个fasta文件组成（有时还包含一个BED或GFF文件，其中包含每个重复的位置）。

基因组组装完成后，需要对基因组进行注释。对于高等真核生物，由于重复序列占了相当大的比例，会影响基因预测的质量，也会带来不必要的资源消耗。因此在基因预测前，首先要检测并屏蔽基因组中的重复序列。

重复序列可分为串联重复序列和散在重复序列两大类：

串联重复序列包括有微卫星序列，小卫星序列等等；

散在重复序列又称转座子元件，包括以DNA-DNA方式转座的DNA转座子和反转录转座子，常见的反转录转座子类别有LTR（Copia and Gypsy）,LINE和SINE等。

2.软屏蔽和硬屏蔽

有两种类型的屏蔽，产生稍有不同的fasta输出：

软屏蔽：屏蔽的重复序列被转换为小写字母，其他序列始终保持大写

硬屏蔽：屏蔽的重复序列被连续的字母N取代，其他序列始终保持大写

3.鉴定基因组重复区域的方法

(1)基于文库的同源方法(序列比对方法)。----RepeatMasker

(2)从头预测的方法。----RepeatModeler

基于文库同源方法将基因组与已知重复序列的数据库进行同源搜素，识别基因组中的重复序列，准确而快速。但依赖于数据库本身，只能通过已知特定类型的重复序列寻找相似的区域，当基因组差异过大，特别是新物种时，很多未知重复序列将难以识别。

从头预测方法直接从现有的全基因组序列中根据元件的结构或功能特征等训练模型，构建重复序列集，不依赖于其它数据库，可以有效识别出新的重复序列结构类型。但是比较费时，且也容易产生错误识别。

重复序列的鉴定具体过程参考文章重复序列的鉴定

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。