生信小白:肉哥,上次听完你的介绍,我满脑子跟这张图片一样...凌乱?!我们为什么不一次性把整本书读取了,非要把这本书撕碎呢?
西克孚肉:这主要受限于技术,测序仪一次只能读取几百、几千、几万个碱基,这与庞大的人参考基因组比,相差好多。我们只能多复印几本书,打碎了,把碎纸片拼凑起来。就跟拼图一样,查看参考图纸,试图弄清楚每个小块的位置,然后慢慢组合在一起。
生信小白:这么多块拼图...我觉得我一辈子都拼不完!!!
西克孚肉:都8012年了,有计算机了啊!这就是我们生信猿的价值所在了嘛。
回到主题,今天给你讲讲数据格式,我们生信猿常觉得自己是格式转换器。生信分析的旅程大致是,接收FASTQ,获得BAM,然后生成VCF。
Q:FASTQ文件是什么?
西克孚肉:
通常人们会拿着DNA的碎纸片,由碎纸片扫描的图片文件,转化成文本文件就是FASTQ。
FASTQ存的是测序仪产生的原始测序数据:
- 第一行:以‘@’开头,是这一条序列的名字
- 第二行:序列,由A,C,G,T和N这五种字母构成,这是我们真正关心的DNA序列,N代表的是测序时那些无法被识别出来的碱基
- 第三行:固定为‘+’
- 第四行:测序质量值,它描述的是每个测序碱基的可靠程度,用ASCII码表示
生信小白:产生这些小拼图文件之后,这些拼图与盒子上的参考图会有不同吗?
西克孚肉:当然会啦,这张图片毕竟只是个参考啦。人与人之间存在许多差异,这些差异解释了为什么有的人容易得某种癌症,有的人对一些药物有反应,而另一些人没有反应。找寻差异的过程也使生信分析变得更加有趣。
Q:BAM文件是什么?
西克孚肉:
把FASTQ文件比对到参考基因组之后,我们得到SAM或者BAM。BAM就是SAM的二进制文件。SAM是纯文本文件,十分巨大。为解决空间爆满的问题,BWA的开发者设计了一种高效的压缩算法,压缩得到的BAM文件大小差不多只有原来的1/6。
BAM文件分为两个部分:头文件(header)和比对结果(record,有时也叫alignment section)。
头文件:每一行都用‘@’ 符号开头,里面主要包含了版本信息,序列比对的参考序列信息
比对结果:BAM的核心,包含以下几个内容
让我们回忆一下:
FASTQ记录的是原始序列和测序质量,BAM记录的是序列比对信息,下面介绍VCF,这是记录变异信息的文件格式。
Q:VCF文件是什么?
西克孚肉:
VCF文件分为两个部分,第一部分是说明文件,每行均以两个## 符号开头,第二部分是突变信息。
这样我们就可以解释倒数第四行的内容:
20:17330 是一个新发现的由T到A的变异,但质量值较低(QUAL=3),根据说明文件的第十三行,质量值小于10,被标成了‘q10’,在后续分析中可以被过滤掉。
其它行代表什么信息,大家感兴趣的话也可以试着翻译翻译。
欢乐的时光总是过的特别快,今天就讲到这里啦,下一期我们来介绍从FASTQ到BAM经历了什么。
往期回顾:
第0期 生信分析是个什么玩意儿?
参考文献:
- 李金明.高通量测序技术[M].北京:科学出版社,2018:84-91.
- Goodwin S , Mcpherson J D , Mccombie W R . Coming of age: ten years of next-generation sequencing technologies[J]. Nature Reviews Genetics,2016, 17(6):333-351
- FASTQ_format:https://en.wikipedia.org/wiki/FASTQ_format
- SAM / BAM / CRAM - Mapped sequence data formats:https://gatkforums.broadinstitute.org/gatk/discussion/11014/sam-bam-cram-mapped-sequence-data-formats
- Variant_Call_Format:https://en.wikipedia.org/wiki/Variant_Call_Format