生信小白学习日记-day1——NGS基础 FASTQ格式解释和质量评估

最新推荐文章于 2024-04-04 13:13:17 发布

weixin_42953727

最新推荐文章于 2024-04-04 13:13:17 发布

阅读量2.5k

点赞数 6

分类专栏： NGS基础文章标签：生信小白学习日记

本文链接：https://blog.csdn.net/weixin_42953727/article/details/90545941

版权

2019年5月25日，一个普通的周六，正在听的歌——北京东路的日子，开始学习生信，写博客。
说明：阅读生信宝典和查阅文章的总结，原文请关注公众号生信宝典，参考的博文都附有链接，仅供参考。

生信宝典

这篇文章讲述两个问题：系统学习还是遇到问题再找答案？是否要写博客。

第一个问题，两种途径都可以，都可以成为大神，但其一，要付出足够多的时间去写代码，修复bug；其二，要多思考、总结，在系统学习时给自己出题，在遇到问题时弄清楚一行行代码的意义；其三，要有兴趣和信仰，对代码的信仰、遇到bug时的信仰、资源的信仰、博客的信仰，相信自己，也相信资源。
第二个问题，参考第一个问题的其三。

这篇文章提到几个可能有用的书和文档：

一些复制粘贴，一些注释总结，仅助于自己记忆（记忆力相当差，把能记的都记了）和理解，当然可能有错误，后续再慢慢改正吧
~~关掉音乐专心学习~~

用gzip压缩，一般我们都用双端测序，返回两个FASTQ文件，左端和右端分别命名为_1或R1, _2或R2。如：sample_name_1_1.fq.gz，sample_name_1_2.fq.gz（第一个下划线后面的数字为重复，第二个下划线后面的数字指定哪一端）
第一行以@开头，后面是reads 的ID 以及其他信息。
第二行为read序列。
第三行以+开头，一般后面无内容；若有则为序列名字，与第一行相同。
第四行为reads质量值。若该碱基测序出错率p_error 为0.001，则Q为30，换算公式为：Q = -10log(p_error)。而测序数据多采用Phred33编码，所以30+33=63，那么63对应的ASCII码为xx，一般碱基质量从0-40，因此ASCII码从（0+33）到（40+33）。以下表显示更为清楚：

关注

专栏目录