零基础小白笔记4 | 数据质控报告全解读

最新推荐文章于 2024-04-02 20:36:26 发布

田不甜啊

最新推荐文章于 2024-04-02 20:36:26 发布

阅读量1.5k

点赞数 39

分类专栏： ChIP-seq 文章标签：笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/tmrtmr___/article/details/135174084

版权

ChIP-seq 专栏收录该内容

9 篇文章 10 订阅

订阅专栏

本文详细介绍了ChIP-seq实验的数据预处理过程，包括网页报告的解读、基本信息（如Encoding、序列数量和质量）、测序质量统计（每个碱基、尾部和序列级别的）、GC含量分布、N值和接头比例等指标的检查。确保了高质量测序数据用于后续分析。

摘要由CSDN通过智能技术生成

❀前言：（书接上回）

零基础小白笔记1 | ChIP-seq原理、操作流程、分析流程

零基础小白笔记2 | 数据与样本信息处理

零基础小白笔记3 | 数据处理与质控

一、全局观赏：

（1）网页版报告左侧会summary，合格的是绿色的√，而警告是！，不合格是红色的× ；

（2）一般来说需要注意不合格的信息；

二、基本信息：

（1）Encoding指测序平台的版本和相应的编码版本号；

（2） Total Sequences记录了输入文本的reads的数量；Total Bases记录了输入数据的碱基数；

（3）Sequences flagged as poor quality：标记为差的碱基序列；Sequence length 测序的长度；

（4）%GC 表示的是整体序列中的GC含量，一般是物种特异的，比如人类细胞就是42%左右；

三、每个碱基质量统计：

（1）图中的横轴是测序序列第1个碱基到第51个碱基；纵轴是质量得分，Q = -10*log10（error P）即20表示1%的错误率，30表示0.1%；

（2）图中每1个boxplot都是该位置的所有序列的测序质量的一个统计，上面的bar是90%分位数，下面的bar是10%分位数，箱子的中间的横线是50%分位数，箱子的上边是75%分位数，下边是25%分位数；蓝色的线为平均值；

（3）一般要求所有位置的10%分位数大于20,也就是我们常说的Q20过滤；

（4）所以上图中测序质量都良好；若存在某序列片段质量极差，则需要切除此序列；

四、每个 tail 的测序情况：

（1）tile代表每一次测序荧光扫描的最小单位，该图主要是防止在测序过程中,某些tail受到不可控因素的影响而出现测序质量偏低的情况；

（2）横轴代表测序序列第1个碱基到第51个碱基；纵轴代表tail的Index编号；

（3）图中蓝色部分代表测序质量高，暖色代表测序质量不高；如果某些 tail 出现暖色，可以在后续分析中把该tail测序的结果去除；

（4）可见上图中测序结果良好；

五、每条序列的测序质量统计：

（1）横轴是0-40，表示的是Q值，Q值越大，测序质量越高；纵轴是每个值对应的reads数目；

（2）所示数据中，测序数据主要集中在高分区域，证明测序质量良好；

六、每个碱基的测序占比：

（1）横轴是测序序列第1个碱基到第51个碱基，纵轴是百分比；

（2）图中四条线代表A、T、C、G在每个位置的平均含量；

（3）在开始测序的时候，测序仪状态不稳定就可能出现异常波动；可以在后续分析中将其切除；

七、序列平均GC含量分布图

（1）横轴是0 - 100%；纵轴是每条序列GC含量对应的数量；

（2）蓝色的线是程序根据经验分布给出的理论值；红色是真实值，两个应该比较接近才比较好；

（3）当红色的线出现双峰，基本肯定是混入了其他物种的DNA序列；

八、N的比例统计

（1）横轴为1-51个碱基的位置；纵轴为N值的百分比；

（2）N值是当测序仪器不能辨别某条reads的某个位置到底是什么碱基时，就会产生"N"；序列中N值占比越小越好；

（3）可见上图中N值占比非常小，测序质量较好；

九、测序长度统计：

（1）理论上测序仪测出来的长度应完全相等，但是总会有一些偏差；

（2）以上图中测序长度主要为51bp，有少量50bp和52bp长度的序列存在，不影响后续分析；

十、重复序列统计：

（1）横轴表示序列重复的次数（如1表示unique序列，2表示有2条完全相同地reads）；纵轴表示重复序列所占的百分比；

（2）红线表示有约相当于unique reads数目的15%的reads是观察到两个重复的，以此类推；

（3）图中所示大多数reads都无重复现象，说明测序情况良好；

十一、接头占比：

（1）横轴为碱基1-51的位置；纵轴为接头所占比例；

（2）上图中可见数据中的adapter都已经去除；

（3）如果有adapter序列没有去除干净的情况，在后续分析时需先使用cutadapt软件去接头；

关注

39
点赞
踩
14

收藏

觉得还不错? 一键收藏
打赏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

田不甜啊 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。