基因组注释文件(GFF,GTF)下载的五种方法

本文提供了从NCBI、Ensemble、GENCODE、UCSC和iGenomes下载基因组及其注释文件的详细方法,覆盖了网页界面下载和FTP下载等多种途径,适用于人类和其他物种的基因组研究。


这里提供基因组文件及基因组注释文件的多种下载方法,如果想了解不同版本查看: https://zhenglei.blog.csdn.net/article/details/117486244

1、NCBI

这里提供两种下载方式,一种为网页界面下载,另一种为FTP下载。

可视化下载

  • 进入网址

https://www.ncbi.nlm.nih.gov/genome/browse#!/overview/

  • 搜索物种

image.png

  • 下载界面

image.png

FTP下载

随便提一下,Chrome 浏览器在18版本后由于安全原因已经不支持 ftp 协议,改用 https 协议,可以看到链接已经与之前的不同。

这里以下载人的参考基因组 GRCh38 为例:

https://ftp.ncbi.nlm.nih.gov/genomes/refseq/vertebrate_mammalian/Homo_sapiens/reference/GCF_000001405.39_GRCh38.p13

人类基因组注释文件:

GTF 格式:https://ftp.ncbi.nlm.nih.gov/genomes/refseq/vertebrate_mammalian/Homo_sapiens/annotation_releases/109/GCF_000001405.38_GRCh38.p12/GCF_000001405.38_GRCh38.p12_genomic.gtf.gz

GFF 格式:

https://ftp.ncbi.nlm.nih.gov/genomes/refseq/vertebrate_mammalian/Homo_sapiens/annotation_releases/109/GCF_000001405.38_GRCh38.p12/GCF_000001405.38_GRCh38.p12_genomic.gff.gz

如果以这种方式下载,其实已经可以路径中大概看出相关物种的下载地址,可以自行查询及下载其他物种。

2、Ensemble

可视化下载

image.png

  • 点击对应名称,下载参考基因组和基因组注释文件

image.png

FTP下载

同样以下载人参考基因组 GRCh38 为例:

http://ftp.ensembl.org/pub/current_fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna.toplevel.fa.gz

GTF 文件:http://ftp.ensembl.org/pub/current_gtf/homo_sapiens/Homo_sapiens.GRCh38.104.gtf.gz

GTT 文件:http://ftp.ensembl.org/pub/current_gff3/homo_sapiens/Homo_sapiens.GRCh38.104.gff3.gz

3、GENCODE

如果小伙伴研究的物种只涉及人类和小鼠,极力推荐 GENCOE,这里有着相较其他数据库,最新最全的基因组和其注释信息。

  • 网址:https://www.gencodegenes.org/
  • 点击人类的最新版

image.png

  • 点击下载基因组注释文件

image.png

  • 点击下载参考基因组文件

image.png

4、UCSC

相对其他下载方式,UCSC 本职的工作是做基因组浏览器的,因此也可以从下图看到,在这里可以根据自己定义来下载相对于的基因组区域,比如 prime,exon,gene,transcript等等。

  • 网址:http://genome.ucsc.edu/cgi-bin/hgTables
  • 下载:设置参数如下,然后点击下载参考基因组及注释文件

image.png

5、iGenomes

iGenomes是常见分析生物的参考序列和注释文件的集合。这些文件已从Ensembl,NCBI或UCSC下载。染色体名称已更改为简单且与下载源一致。每个iGenome都可以作为压缩文件使用,其中包含生物体的单个基因组构建的序列和注释文件。

网址:https://support.illumina.com/sequencing/sequencing_software/igenome.html

image.png

由亚马逊资助的生物信息参考基因组下载站点,有各种参考基因组,注释文件,软件索引等常用文件,并且有着极快的下载速度,但是缺点是只有常用的物种。

**站点:**https://ewels.github.io/AWS-iGenomes/

image.png

将 GBFF(GenBank Full Format)文件转换为 GFF(General Feature Format)格式,是基因组数据分析中常见的需求,尤其是在进行基因注释处理时。以下是几种可行的方法: ### 使用 BioPerl 脚本 `bp_genbank2gff3.pl` 一种常见且有效的方法是使用 BioPerl 提供的脚本 `bp_genbank2gff3.pl`。该脚本能够将 GenBank 格式的文件(包括 `.gb`、`.gbk` 和 `.gbff`)转换为 GFF3 格式,保留了基因特征及其层级关系(如 Parent 字段),适用于后续工具如 `gffread` 的输入需求。 #### 使用步骤: 1. **安装 BioPerl**:确保系统中已安装 BioPerl 模块,可以通过 CPAN 或 Conda 安装。 ```bash conda install -c conda-forge bioperl ``` 2. **获取脚本**:从 BioPerl 的 GitHub 仓库或相关资源中下载 `bp_genbank2gff3.pl` 脚本。 3. **执行转换命令**: ```bash perl /path/to/bp_genbank2gff3.pl /path/to/input.gbff > output.gff3 ``` 该命令会将输入的 `.gbff` 文件转换为 GFF3 格式,并输出到 `output.gff3` 文件中。 4. **验证输出**:使用 `gffread` 或其他 GFF 解析工具检查输出文件是否符合预期格式[^2]。 ### 使用 `AGAT` 工具集 `AGAT`(Another Gff Annotation Toolkit)是一个用于处理 GFF 文件的工具集,也支持将 GenBank/GBFF 文件转换为 GFF3 格式。它能够更好地处理复杂的注释结构,并保持 Parent/Child 关系的完整性。 #### 使用方法: 1. **安装 AGAT**: ```bash git clone https://github.com/NBISweden/AGAT.git cd AGAT && perl Build.PL && ./Build install ``` 2. **执行转换命令**: ```bash agat_convert_sp_gff2gff.pl --gff input.gbff --output output.gff3 ``` 该命令将 `.gbff` 文件转换为标准的 GFF3 文件,并保留所有必要的注释信息[^2]。 ### 使用 Python 和 `Bio.SeqIO` 模块 如果希望使用 Python 脚本进行转换,可以利用 `Bio.SeqIO` 模块读取 GBFF 文件,并自定义输出为 GFF 格式。 #### 示例代码: ```python from Bio import SeqIO def gbff_to_gff(input_file, output_file): with open(output_file, 'w') as out_handle: for record in SeqIO.parse(input_file, "genbank"): for feature in record.features: start = feature.location.start + 1 # GFF is 1-based end = feature.location.end strand = feature.strand if feature.strand is not None else 0 attributes = "ID={};Name={}".format( feature.qualifiers.get("db_xref", [""])[0], feature.qualifiers.get("gene", [""])[0] ) out_handle.write(f"{record.id}\t.\t{feature.type}\t{start}\t{end}\t.\t{strand}\t.\t{attributes}\n") gbff_to_gff("input.gbff", "output.gff") ``` 此脚本将 GenBank 文件中的每个特征写入 GFF 文件,并支持基本的属性字段,如 ID 和 Name。 ###
评论 9
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

白墨石

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值