2019年5月25日,一个普通的周六,正在听的歌——北京东路的日子,开始学习生信,写博客。
说明:阅读生信宝典和查阅文章的总结,原文请关注公众号生信宝典,参考的博文都附有链接,仅供参考。
生信宝典
系列教程
关于编程学习的一些思考
知乎专栏:https://zhuanlan.zhihu.com/Data-Analysis
这篇文章讲述两个问题:系统学习还是遇到问题再找答案?是否要写博客。
- 第一个问题,两种途径都可以,都可以成为大神,但其一,要付出足够多的时间去写代码,修复bug;其二,要多思考、总结,在系统学习时给自己出题,在遇到问题时弄清楚一行行代码的意义;其三,要有兴趣和信仰,对代码的信仰、遇到bug时的信仰、资源的信仰、博客的信仰,相信自己,也相信资源。
- 第二个问题,参考第一个问题的其三。
这篇文章提到几个可能有用的书和文档:
- 廖雪峰老师的 python 教程
- R语言,dplyr data.table ggplot2 包的帮助文档
- stackoverflow 网站几乎能找到所有编程问题的答案
NGS基础——FASTQ格式解释和质量评估
一些复制粘贴,一些注释总结,仅助于自己记忆(记忆力相当差,把能记的都记了)和理解,当然可能有错误,后续再慢慢改正吧
关掉音乐专心学习
FASTQ文件格式和命名
- 用gzip压缩,一般我们都用双端测序,返回两个FASTQ文件,左端和右端分别命名为_1或R1, _2或R2。 如:sample_name_1_1.fq.gz,sample_name_1_2.fq.gz(第一个下划线后面的数字为重复,第二个下划线后面的数字指定哪一端)
- 第一行以@开头,后面是reads 的ID 以及其他信息。
- 第二行为read序列。
- 第三行以+开头,一般后面无内容;若有则为序列名字,与第一行相同。
- 第四行为reads质量值。若该碱基测序出错率p_error 为0.001,则Q为30,换算公式为:Q = -10log(p_error)。而测序数据多采用Phred33编码,所以30+33=63,那么63对应的ASCII码为xx,一般碱基质量从0-40,因此ASCII码从(0+33)到(40+33)。以下表显示更为清楚: