生信分析矫正P值_生物信息分析:从入门到精(fang)通(qi) 第1期FASTQ! BAM! VCF! 傻傻分不清楚...

生信小白:肉哥,上次听完你的介绍,我满脑子跟这张图片一样...凌乱?!我们为什么不一次性把整本书读取了,非要把这本书撕碎呢?

db5e94dd4e8a63baf0b59fed093d53d8.png

西克孚肉:这主要受限于技术,测序仪一次只能读取几百、几千、几万个碱基,这与庞大的人参考基因组比,相差好多。我们只能多复印几本书,打碎了,把碎纸片拼凑起来。就跟拼图一样,查看参考图纸,试图弄清楚每个小块的位置,然后慢慢组合在一起。

06f26aec906d7fa383499cf47d428270.png

生信小白:这么多块拼图...我觉得我一辈子都拼不完!!!

d6e950414997cb12740da7e3406aad19.png

西克孚肉:都8012年了,有计算机了啊!这就是我们生信猿的价值所在了嘛。

69e323eac35a0050de4899ea3293d0ba.png

回到主题,今天给你讲讲数据格式,我们生信猿常觉得自己是格式转换器。生信分析的旅程大致是,接收FASTQ,获得BAM,然后生成VCF。

c46940714049bba99e222a9dbfeebb11.png

Q:FASTQ文件是什么?

西克孚肉:

通常人们会拿着DNA的碎纸片,由碎纸片扫描的图片文件,转化成文本文件就是FASTQ。

811ee2d7d7aee9b2580d41f98f1bd939.png

FASTQ存的是测序仪产生的原始测序数据:

  • 第一行:以‘@’开头,是这一条序列的名字
  • 第二行:序列,由A,C,G,T和N这五种字母构成,这是我们真正关心的DNA序列,N代表的是测序时那些无法被识别出来的碱基
  • 第三行:固定为‘+’
  • 第四行:测序质量值,它描述的是每个测序碱基的可靠程度,用ASCII码表示

5faaeed01f19e9349e9c2920e07f3f84.png

生信小白:产生这些小拼图文件之后,这些拼图与盒子上的参考图会有不同吗?

西克孚肉:当然会啦,这张图片毕竟只是个参考啦。人与人之间存在许多差异,这些差异解释了为什么有的人容易得某种癌症,有的人对一些药物有反应,而另一些人没有反应。找寻差异的过程也使生信分析变得更加有趣。

223baf22dbe16c4a0328c3008e77c1f1.png

Q:BAM文件是什么?

西克孚肉:

把FASTQ文件比对到参考基因组之后,我们得到SAM或者BAM。BAM就是SAM的二进制文件。SAM是纯文本文件,十分巨大。为解决空间爆满的问题,BWA的开发者设计了一种高效的压缩算法,压缩得到的BAM文件大小差不多只有原来的1/6。

0ecf1d8bf2e3b18a4af13271c3ae51fa.gif

BAM文件分为两个部分:头文件(header)和比对结果(record,有时也叫alignment section)。

头文件:每一行都用‘@’ 符号开头,里面主要包含了版本信息,序列比对的参考序列信息

比对结果:BAM的核心,包含以下几个内容

aa83f10d2b0e670fe95b089a18f6fa86.png

让我们回忆一下:
FASTQ记录的是原始序列和测序质量,BAM记录的是序列比对信息,下面介绍VCF,这是记录变异信息的文件格式。

Q:VCF文件是什么?

西克孚肉:

VCF文件分为两个部分,第一部分是说明文件,每行均以两个## 符号开头,第二部分是突变信息。

25786fba55345061c318c667336ee431.png

3b369e32482598d592d00b56ad619069.png

这样我们就可以解释倒数第四行的内容:

20:17330 是一个新发现的由T到A的变异,但质量值较低(QUAL=3),根据说明文件的第十三行,质量值小于10,被标成了‘q10’,在后续分析中可以被过滤掉。

其它行代表什么信息,大家感兴趣的话也可以试着翻译翻译。

欢乐的时光总是过的特别快,今天就讲到这里啦,下一期我们来介绍从FASTQ到BAM经历了什么。

c3343e18c55f8cba0ee13c5684404260.png

往期回顾:

第0期 生信分析是个什么玩意儿?

参考文献:

  1. 李金明.高通量测序技术[M].北京:科学出版社,2018:84-91.
  2. Goodwin S , Mcpherson J D , Mccombie W R . Coming of age: ten years of next-generation sequencing technologies[J]. Nature Reviews Genetics,2016, 17(6):333-351
  3. FASTQ_format:https://en.wikipedia.org/wiki/FASTQ_format
  4. SAM / BAM / CRAM - Mapped sequence data formats:https://gatkforums.broadinstitute.org/gatk/discussion/11014/sam-bam-cram-mapped-sequence-data-formats
  5. Variant_Call_Format:https://en.wikipedia.org/wiki/Variant_Call_Format
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值