如何选择参考基因组和注释文件

参考基因组是生信分析的基础,重测、芯片、转录组等测序数据都需要首先与参考基因组进行比对,才能进行后续分析

需要注意的是,下载的参考基因组一定要使用与其对应的注释文件,不能再Ensemble中下载参考基因组,却在NCBI下载注释文件;也不能下载3.0版本基因组,却是用4.0的注释文件

绵羊为例,一般在NCBI和Ensemble中下载参考基因组,个人还是比较倾向于Ensemble中下载:

1. Ensemble:可下载参考基因组、cDNA、CDs、ncRNA序列和注释文件,

                                         

1.1 主要包含三种形式的参考基因组:

Ensemble提供两种组装形式和3种重复序列处理方式的参考基因组,分别是primary、toplevel 、unmasked(dna) 、soft-masked(dna_sm) 和masked(dna_rm) 。

一般选择dna.primary或dna_sm.primary

1.2 文件命名规则:

<species>.<assembly>.<sequence type>.<id type>.<id>.fa.gz

<species>:物种名称The systematic name of the species.
<assembly>: 基因组组装名称
<sequence type>:包含dna、dna_rm和dna_sm三种类型
  * 'dna' - unmasked genomic DNA sequences. 未处理的基因组序列
  * 'dna_rm' - masked genomic DNA. 用“RepeatMasker tool”工具识别处理的基因组序列,重复区和低 
                                   复杂区碱基用N替代。
  * 'dna_sm' - soft-masked genomic DNA. 重复区和低复杂区碱基用小写字母替代。
<id type>:包含chromosome、nonchromosomal和seqlevel
  * 'chromosome':染色体
  * 'nonchromosomal':未组装到染色体上的碱基序列。
  * 'seqlevel'       - This is usually sequence scaffolds, chunks or clones.
     -- 'scaffold'   - Larger sequence contigs from the assembly of shorter
        sequencing reads (often from whole genome shotgun, WGS) which could
        not yet be assembled into chromosomes. Often more genome sequencing
        is needed to narrow gaps and establish a tiling path.
     -- 'chunk' -  While contig sequences can be assembled into large entities,
        they sometimes have to be artificially broken down into smaller entities
        called 'chunks'. This is due to limitations in the annotation
        pipeline and the finite record size imposed by MySQL which stores the
        sequence and annotation information.
     -- 'clone' - In general this is the smallest sequence entity.  It is often
        identical to the sequence of one BAC clone, or sequence region
        of one BAC clone which forms the tiling path.
<id>: The actual sequence identifier. Depending on the <id type> the <id>
          could represent the name of a chromosome, a scaffold, a contig, a clone ..
          Field is empty for seqlevel files
fa:FASTQ文件
gz:压缩文件

1.3 toplevel还是primary_assembly参考基因组:

TOPLEVEL:包含所有染色体序列、未组装到染色体序列和用N填充的单倍型/补丁区域(N padded haplotype/patch regions)

PRIMARY ASSEMBLY:用于序列比对的最完善的基因组,去除了单倍型/补丁区域(excluding haplotype/patch regions)。若没有'primary_assembly'文件,'toplevel'文件具有相同的效用。

在绵羊中没有primary_assembly的参考基因组,而在人、小鼠、斑马鱼等模式生物中有
  Primary assembly sequences unmasked:
    Homo_sapiens.GRCh37.dna.primary_assembly.fa.gz
  Primary assembly soft/hard masked sequences:
    Homo_sapiens.GRCh37.dna_sm.primary_assembly.fa.gz
    Homo_sapiens.GRCh37.dna_rm.primary_assembly.fa.gz

1.4 unmasked、rm_masked还是sm masked的参考基因组?
Masked基因组:指所有重复区和低复杂区被N代替的基因组序列, 比对时就不会有reads比对到这些区域。一般不推荐用masked的基因组, 因为它造成了信息的丢失, 由此带来的一个问题是uniquely比对到masked基因组上的reads实际上可能不是unique的。而且masked基因组还会带来比对错误, 使得在允许错配的情况下, 本来来自重复区的reads比对到基因组的其它位置。另外检测重复区和低复杂区的软件不可能是完美的,这就造成遮盖住的重复序列和低复杂区并不一定是100%准确和敏感的。
soft-masked基因组:是指把所有重复区和低复杂区的序列用小写字母标出的基因组, 由于主要的比对软件,比如BWA、bowtie2等都忽略这些soft-mask,直接把小写字母当做大写字母比对, 所以使用soft-masked基因组的比对效果和使用unmasked基因组的比对效果是相同的。

因此,在这里我们选择:Ovis_aries_rambouillet.Oar_rambouillet_v1.0.dna.toplevel.fa.gz

1.5 注释文件

    分别包含三种类型的.gtf(general tranfer format)和.gff(general feature format)注释文件,根据自己需求选择合适注释信息

gtf:全部的注释信息
chr:染色体注释信息
abinitio:预测基因集注释信息

2. NCBI中有三个参考基因组下载入口:

入口1:可以直截了当进行下载,需要注意下载的基因组文件和注释文件分别是.fna和.gff格式,使用时还需要转成.fa和.gtf格式

入口2:包含参考基因组、CDs、RNA和蛋白序列,以及相应的注释信息,不同的文件信息可以通过README文件获取。

也是最新版本的参考基因组,看起来不如Ensemble简洁明了。但是对参考基因组的各种统计信息和说明较为完善。

入口3:各个版本的参考基因组(懵逼)

第一次知道绵羊有7个版本的参考基因组,有选择困难症的人就不要进来了,而且某些文件夹没有找到注释文件

### 基因组从头注释的方法与工具 基因组从头注释是指在没有任何已知参考基因组的情况下,通过计算方法预测描述基因组的功能元件。这一过程通常涉及多个阶段,包括重复序列识别、蛋白质编码基因预测、非编码RNA鉴定以及功能注释等。 #### 1. 数据准备 高质量的输入数据对于成功的基因组注释至关重要。这一步骤可能包括原始测序读取的质量控制、组装后的基因组文件以及其他辅助数据集(如转录组数据)。如果存在转录组数据,则可以利用其提高基因模型预测的准确性[^3]。 #### 2. 预处理:重复序列屏蔽 由于基因组中可能存在大量的重复区域,这些区域可能会干扰后续的基因预测工作流。因此,在正式开始基因预测之前,通常会先使用软件来检测并掩盖掉这些重复片段。常用的工具有 `RepeatMasker` `RepeatModeler`,它们能够基于现有的数据库或者自行构建新的重复单元库来进行筛选。 #### 3. 编码区预测 ##### (a)同源比较法 (Homology-based Prediction) 这种方法依赖于已经经过实验验证过的其他物种中的直系同源基因信息。典型代表程序有 GenBlastA Exonerate 。它适用于目标物种与其近缘种之间共享较多保守特征的情况之下。 ##### (b)从头算法(Ab initio prediction methods) 这类技术仅依靠DNA 序列本身的特性而无需外部证据支持即可做出推测。主要采用隐马尔可夫模型(HMMs),比如 Augustus 或者 GeneMark-ES 等都是此类应用实例之一。 #### 4. 结合多种策略综合评价最佳候选基因集合 为了获得更精确的结果,往往将上述两种不同原理相结合起来形成混合型框架。例如 MAKER-P 就是一个集成平台,允许用户同时运行 ab initio predictors 及 homologous searches ,并通过内部逻辑判断最终保留哪些预测结果作为可信度较高的选项提交给下一步操作。 #### 5. 功能注释 一旦确定了潜在的开放阅读框位置之后,就需要赋予每一个新发现的对象具体生物学意义解释——即所谓“功能性标注”。此环节主要包括但不限于以下几个方面: - 利用 InterProScan 对未知产物执行域匹配查询; - 查询 KEGG Pathway Database 获取代谢途径关联提示; - 进行 GO terms 富集统计分析等等[^1]。 以下是实现部分流程的一个简单 Python 函数示例: ```python import subprocess def run_maker(genome_fasta, est_files=None, protein_files=None): """ 使用MAKER进行基因组注释 参数: genome_fasta -- 输入的基因组fasta文件路径 est_files -- EST序列文件列表(可选) protein_files -- 蛋白质序列文件列表(可选) 返回值: None """ maker_cmd = ["maker"] if est_files is not None and isinstance(est_files,list): for ef in est_files: maker_cmd.extend(["--est",ef]) if protein_files is not None and isinstance(protein_files,list): for pf in protein_files: maker_cmd.extend(["--protein",pf]) maker_cmd.append("--genome={}".format(genome_fasta)) try: result=subprocess.run(maker_cmd,text=True,capture_output=True,check=True) print(result.stdout) except Exception as e: print(f"Error occurred while running MAKER:{e}") ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值