从直觉上看,数据貌似很好理解,但真正要说清楚数据这个词却有点困难。
想一想,数据到底是什么呢?
数据的定义实际上包含两方面内容,即信息的符号和设计。
其中信息的设计,也就是数据的格式,决定了读者从中获取有效信息的难易程度。
人们经常忽略的一个事实——数据的格式和数据本身同等重要。
生物信息学中的数据
传统的生物学家可能会认为,生物信息学是一种将数据转换成结果的软件。
实则不然,生物信息学只是将一种格式的数据,转换成另一种格式的数据。
这种格式转换往往带来信息的综合和优化。
数据格式
生物信息学中几种常见的数据格式:
1、GenBank
2、Fasta
3、FastQ
4、BED/GFF/GTF
5、SAM/BAM
1.GenBank
文件后缀为.gb/.genbank,GenBank 是一种符合人们阅读习惯的数据格式。
GenBank示例文件