查看fna文件Linux,NCBI上基因组文件格式及解释

这篇博客介绍了NCBI基因组数据下载中常见的几种文件格式,如.asn、.faa、.ffn、.fna等。.asn文件包含ASN.1格式的完整注释信息;.faa文件存储所有蛋白质序列;.ffn文件保存核酸编码区域序列;.fna则为完整基因组序列。.gbk是GenBank格式的基因组注释信息,.ptt文件详列CDS信息。这些文本文件可用记事本或notepad++打开,而.val文件是ASN.1二进制的核苷酸序列。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

最近在对于一些关于基因组的数据进行处理,发现如果在NCBI上下载一个物种例如E. coil的基因组序列之后,有很多并不常见的文件类型,例如.asn.faa.ffn.fna *.val 等等,处于好奇,特意去查了这些文件的意义是什么,总结如下:

2e3c9b8de625

*.asn = ASN.1 (Abstract Syntax Notation 1) file 是NCBI的一种特定格式,包括完整的注释信息,可以用如sequin等软件打开。

*.faa = FASTA Amino Acid file 全部蛋白序列文件

*.ffn = FASTA nucleotide coding regions file 全部核酸序列文件

*.fna = FASTA Nucleic Acid file 完整的基因组序列文件(一条序列)

*.gbk = GenBank flat file format 不用说了,genbank格式的基因组注释信息

*.ptt = Protein Table 包含各个CDS(coding sequence)的完整信息表(很有用,可以方便的导入excel等软件来看)

以上这些软件都是文本类型的文件,所以可以用记事本打开,但是更加建议使用notepad++打开,会保证格式不会变化。

其中*.val是一个二进制格式的文件。

*.val = Nucleotide sequence, in ASN.1 binary format(ASN.1二进制的核苷酸序列)

我本次使用的文件类型是.fna,也就是一条完整的基因组序列文件。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值