生信小白学习日记-day1——NGS基础 FASTQ格式解释和质量评估

2019年5月25日,一个普通的周六,正在听的歌——北京东路的日子,开始学习生信,写博客。
说明:阅读生信宝典和查阅文章的总结,原文请关注公众号生信宝典,参考的博文都附有链接,仅供参考。

生信宝典

系列教程

关于编程学习的一些思考

知乎专栏:https://zhuanlan.zhihu.com/Data-Analysis

这篇文章讲述两个问题:系统学习还是遇到问题再找答案?是否要写博客

  • 第一个问题,两种途径都可以,都可以成为大神,但其一,要付出足够多的时间去写代码,修复bug;其二,要多思考、总结,在系统学习时给自己出题,在遇到问题时弄清楚一行行代码的意义;其三,要有兴趣信仰,对代码的信仰、遇到bug时的信仰、资源的信仰、博客的信仰,相信自己,也相信资源。
  • 第二个问题,参考第一个问题的其三。

这篇文章提到几个可能有用的书和文档:

  • 廖雪峰老师的 python 教程
  • R语言,dplyr data.table ggplot2 包的帮助文档
  • stackoverflow 网站几乎能找到所有编程问题的答案

NGS基础——FASTQ格式解释和质量评估

一些复制粘贴,一些注释总结,仅助于自己记忆(记忆力相当差,把能记的都记了)和理解,当然可能有错误,后续再慢慢改正吧
关掉音乐专心学习

FASTQ文件格式和命名

  • gzip压缩,一般我们都用双端测序,返回两个FASTQ文件,左端和右端分别命名为_1或R1, _2或R2。 如:sample_name_1_1.fq.gz,sample_name_1_2.fq.gz(第一个下划线后面的数字为重复,第二个下划线后面的数字指定哪一端)
    在这里插入图片描述
  • 第一行以@开头,后面是reads 的ID 以及其他信息。
  • 第二行为read序列。
  • 第三行以+开头,一般后面无内容;若有则为序列名字,与第一行相同。
  • 第四行为reads质量值。若该碱基测序出错率p_error 为0.001,则Q为30,换算公式为:Q = -10log(p_error)。而测序数据多采用Phred33编码,所以30+33=63,那么63对应的ASCII码为xx,一般碱基质量从0-40,因此ASCII码从(0+33)到(40+33)。以下表显示更为清楚:
  • 6
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值