零基础小白笔记4 | 数据质控报告全解读

本文详细介绍了ChIP-seq实验的数据预处理过程,包括网页报告的解读、基本信息(如Encoding、序列数量和质量)、测序质量统计(每个碱基、尾部和序列级别的)、GC含量分布、N值和接头比例等指标的检查。确保了高质量测序数据用于后续分析。
摘要由CSDN通过智能技术生成

❀前言:(书接上回)

零基础小白笔记1 | ChIP-seq原理、操作流程、分析流程

零基础小白笔记2 | 数据与样本信息处理

零基础小白笔记3 | 数据处理与质控

一、全局观赏:

(1)网页版报告左侧会summary,合格的是绿色的√,而警告是!,不合格是红色的× ;

(2)一般来说需要注意不合格的信息;

二、基本信息:

(1)Encoding指测序平台的版本和相应的编码版本号;

(2) Total Sequences记录了输入文本的reads的数量;Total Bases记录了输入数据的碱基数;

(3)Sequences flagged as poor quality标记为差的碱基序列;Sequence length 测序的长度;

(4)%GC 表示的是整体序列中的GC含量,一般是物种特异的,比如人类细胞就是42%左右;

三、每个碱基质量统计:

(1)图中的横轴是测序序列第1个碱基到第51个碱基;纵轴是质量得分,Q = -10*log10(error P)即20表示1%的错误率,30表示0.1%;

(2)图中每1个boxplot都是该位置的所有序列的测序质量的一个统计,上面的bar是90%分位数,下面的bar是10%分位数,箱子的中间的横线是50%分位数,箱子的上边是75%分位数,下边是25%分位数;蓝色的线为平均值;

(3)一般要求所有位置的10%分位数大于20,也就是我们常说的Q20过滤;

(4)所以上图中测序质量都良好;若存在某序列片段质量极差,则需要切除此序列;

四、每个 tail 的测序情况:

(1)tile代表每一次测序荧光扫描的最小单位,该图主要是防止在测序过程中,某些tail受到不可控因素的影响而出现测序质量偏低的情况;

(2)横轴代表测序序列第1个碱基到第51个碱基;纵轴代表tail的Index编号;

(3)图中蓝色部分代表测序质量高,暖色代表测序质量不高;如果某些 tail 出现暖色,可以在后续分析中把该tail测序的结果去除;

(4)可见上图中测序结果良好;

五、每条序列的测序质量统计:

(1)横轴是0-40,表示的是Q值,Q值越大,测序质量越高;纵轴是每个值对应的reads数目;

(2)所示数据中,测序数据主要集中在高分区域,证明测序质量良好;

六、每个碱基的测序占比:

(1)横轴是测序序列第1个碱基到第51个碱基,纵轴是百分比;

(2)图中四条线代表A、T、C、G在每个位置的平均含量;

(3)在开始测序的时候,测序仪状态不稳定就可能出现异常波动;可以在后续分析中将其切除;

七、序列平均GC含量分布图

(1)横轴是0 - 100%;纵轴是每条序列GC含量对应的数量;

(2)蓝色的线是程序根据经验分布给出的理论值;红色是真实值,两个应该比较接近才比较好;

(3)当红色的线出现双峰,基本肯定是混入了其他物种的DNA序列;

八、N的比例统计

(1)横轴为1-51个碱基的位置;纵轴为N值的百分比;

(2)N值是当测序仪器不能辨别某条reads的某个位置到底是什么碱基时,就会产生"N";序列中N值占比越小越好;

(3)可见上图中N值占比非常小,测序质量较好;

九、测序长度统计:

(1)理论上测序仪测出来的长度应完全相等,但是总会有一些偏差;

(2)以上图中测序长度主要为51bp,有少量50bp和52bp长度的序列存在,不影响后续分析;

十、重复序列统计:

(1)横轴表示序列重复的次数(如1表示unique序列,2表示有2条完全相同地reads);纵轴表示重复序列所占的百分比;

(2)红线表示有约相当于unique reads数目的15%的reads是观察到两个重复的,以此类推;

(3)图中所示大多数reads都无重复现象,说明测序情况良好;

十一、接头占比:

(1)横轴为碱基1-51的位置;纵轴为接头所占比例;

(2)上图中可见数据中的adapter都已经去除;

(3)如果有adapter序列没有去除干净的情况,在后续分析时需先使用cutadapt软件去接头;

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

田不甜啊

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值