Linux进阶--生物信息学常见的文件格式:fasta、fastq、gff/gtf

这几种文件格式一定要认识哦,最常用的几种文件格式,知道每个文件格式的特征,这是数据分析的入门呢!也是生物信息学的常识。

一、fasta格式

fasta:一种基于文本用于表示核酸序列或多肽序列的格式。缩写为 fa

特征: 两部分, id行和序列行.

- id行:以“>”开头, 有时候会包含注释信息,如 chr1、chr2 … - 序列行:一个字母表示一个碱基/氨基酸,ATCGN 或 20种氨基酸

二、fastq格式

fastq:一种保存生物序列(通常为核酸序列)及其测序质量得分信息的 文本格式。

FASTQ文件中,一个序列通常由四行组成:

• 第一行:以 @ 开头,之后为序列的标识符以及描述信息

• 第二行:为序列信息,如 ATCG • 第三行:以 + 开头,之后可以再次加上序列的标识及描述信息(保留行)

• 第四行:为碱基质量值,与第二行的序列相对应,长度必须与第二行相同

三、gff格式

gff:基因组注释文件,总共有 9 列。 

四、gtf格式

gtf:基因注释文件 ,总共有 9 列。

9 attributes 属性,必须要有以下两个值:gene_id value: 表示坐标在基因组上的基因座的唯一的ID。gene_id 与 value 值用空格分 开,如果值为空,则表示没有对应的基因。transcript_id value: 预测的转录本的唯一ID。transcript_id与value值用空格分开,空 表示没有转录本。

【使用column -t 命令。让列对齐】

  • 10
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值