生信基础知识-RefSeq

为什么要了解 RefSeq?

1.提高分析的可靠性:RefSeq 提供经过专家审核的高质量数据,能确保你的分析更加准确、可靠。
2.避免数据冗余和错误:与 GenBank 这样的数据库相比,RefSeq 数据库减少了重复和可能存在错误的序列,避免了冗余数据对分析结果的干扰。
3.标准化的基因注释:RefSeq 的基因命名和注释遵循官方标准,保证了你在分析时使用的是一致且权威的基因信息。
4.广泛应用于多种分析场景:无论是基因组注释、RNA-seq 分析、突变检测还是进化研究,RefSeq 都是关键的数据资源。
总的来说,了解 RefSeq 能让你在进行日常生信分析时,更加准确地获取和使用数据,从而得出更可信的研究结果。如果你对 RefSeq 的具体操作或某个分析场景有兴趣,可以告诉我,我可以继续为你详细讲解如何应用它。


1. 了解 RefSeq 的基本概念
2. 理解其主要特点(非冗余、校正、覆盖广泛)
3. 区别 RefSeq 与 GenBank
4. 熟悉 RefSeq 序列编号前缀
5. 掌握 RefSeq 记录的特性
6. 应用于基因组注释和其他分析场景,提升数据分析的可靠性

参考序列(RefSeq) 是由 NCBI(美国国家生物技术信息中心)提供的一组经过校正的标准序列数据库。它包含了来自多种生物的染色体、基因组、RNA、蛋白质等序列信息。RefSeq的目标是提供一个非冗余(没有重复序列)且高质量的基因组、基因、蛋白质等数据资源,供科学家进行医学、基因功能、和比较基因组研究。
在这里插入图片描述

RefSeq 的主要特点:

  1. 非冗余:每个基因或基因组位置通常会选取一个标准序列,避免重复。
  2. 校正的序列:所有的序列都经过专家审查和校正,提供更高的可信度。
  3. 覆盖广泛:它不仅包括人类的基因序列,还包括细菌、病毒等其他生物的序列。
  4. 序列编号前缀:不同类型的序列有不同的编号前缀,比如 NM 表示标准 mRNA 序列,NR 表示非编码 RNA 序列,NP 表示蛋白序列等。

这些特点使得 RefSeq 数据库成为了研究人员获取标准和可靠基因信息的重要工具。

接下来要介绍的是 RefSeq 和 GenBank 的区别:

  1. RefSeq 是经过 NCBI 校正后的标准数据库,主要提供一个具有代表性的参考序列。
  2. GenBank 是一个开放的数据库,研究者和公司都可以提交自己的序列,这就导致可能有重复或不太精确的序列。

RefSeq 序列编号前缀:

  1. NM_:代表标准 mRNA 序列。这是基因的转录产物,经过 NCBI 校正,是成熟的 mRNA 序列。
  2. XM_:代表预测的 mRNA 序列。基于基因组注释的预测序列,可能还未经实验验证。
  3. NP_:代表标准蛋白质序列。它是从成熟的 mRNA 翻译得到的蛋白序列。
  4. XP_:代表预测的蛋白质序列。基于基因组注释预测的蛋白质,可能还未经实验验证。
  5. NR_:代表非编码 RNA 序列。包括转录本不编码蛋白质的 RNA 序列,例如结构 RNA。
  6. XR_:代表预测的非编码 RNA 序列。基于基因组注释的预测 RNA 序列。
  7. NC_:代表完整的基因组分子序列,适用于整个基因组、染色体等。
  8. NG_:代表不完整的基因组区域,通常标记的是部分基因组区域或假基因。
  9. YP_:标记的是细菌、病毒或线粒体的蛋白产物,不涉及转录过程。
  10. ZP_:表示通过自动注释得到的蛋白质序列,常见于原核生物中。

RefSeq 记录的特性:

  1. Accession 号:RefSeq 记录的 Accession 号是唯一的,并且由两个字母加下划线(如 NM_ 或 NP_)开头。这个编号用来唯一标识一个特定的序列。

  2. Comment 区域:每个 RefSeq 记录都有一个注释区域(Comment),其中会显示序列的来源以及一些有用的背景信息。

  3. 正式命名:RefSeq 数据库中的基因符号使用的是官方命名系统(由各个物种的基因命名委员会提供)。这与 GenBank 有所不同,因为 GenBank 中的基因符号可能是由提交者自行命名,未必符合官方标准。

  4. BLAST 和 Entrez 搜索中的 RefSeq:在 BLAST(序列比对工具)结果和 Entrez(NCBI 的检索工具)搜索结果中,你可以通过序列编号前的 “ref” 来快速识别 RefSeq 数据。比如:

    gi|4557284|ref|NM_000646.1|
    

    这里的 “ref” 表示这是来自参考序列数据库的序列。

这些特性保证了 RefSeq 数据的权威性和一致性,并且便于研究人员在使用 BLAST 或其他工具时快速识别可信的参考序列。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值