❀前言:(书接上回)
零基础小白笔记1 | ChIP-seq原理、操作流程、分析流程
一、全局观赏:
(1)网页版报告左侧会summary,合格的是绿色的√,而警告是!,不合格是红色的× ;
(2)一般来说需要注意不合格的信息;
二、基本信息:
(1)Encoding指测序平台的版本和相应的编码版本号;
(2) Total Sequences记录了输入文本的reads的数量;Total Bases记录了输入数据的碱基数;
(3)Sequences flagged as poor quality:标记为差的碱基序列;Sequence length 测序的长度;
(4)%GC 表示的是整体序列中的GC含量,一般是物种特异的,比如人类细胞就是42%左右;
三、每个碱基质量统计:
(1)图中的横轴是测序序列第1个碱基到第51个碱基;纵轴是质量得分,Q = -10*log10(error P)即20表示1%的错误率,30表示0.1%;
(2)图中每1个boxplot都是该位置的所有序列的测序质量的一个统计,上面的bar是90%分位数,下面的bar是10%分位数,箱子的中间的横线是50%分位数,箱子的上边是75%分位数,下边是25%分位数;蓝色的线为平均值;
(3)一般要求所有位置的10%分位数大于20,也就是我们常说的Q20过滤;
(4)所以上图中测序质量都良好;若存在某序列片段质量极差,则需要切除此序列;
四、每个 tail 的测序情况:
(1)tile代表每一次测序荧光扫描的最小单位,该图主要是防止在测序过程中,某些tail受到不可控因素的影响而出现测序质量偏低的情况;
(2)横轴代表测序序列第1个碱基到第51个碱基;纵轴代表tail的Index编号;
(3)图中蓝色部分代表测序质量高,暖色代表测序质量不高;如果某些 tail 出现暖色,可以在后续分析中把该tail测序的结果去除;
(4)可见上图中测序结果良好;
五、每条序列的测序质量统计:
(1)横轴是0-40,表示的是Q值,Q值越大,测序质量越高;纵轴是每个值对应的reads数目;
(2)所示数据中,测序数据主要集中在高分区域,证明测序质量良好;
六、每个碱基的测序占比:
(1)横轴是测序序列第1个碱基到第51个碱基,纵轴是百分比;
(2)图中四条线代表A、T、C、G在每个位置的平均含量;
(3)在开始测序的时候,测序仪状态不稳定就可能出现异常波动;可以在后续分析中将其切除;
七、序列平均GC含量分布图
(1)横轴是0 - 100%;纵轴是每条序列GC含量对应的数量;
(2)蓝色的线是程序根据经验分布给出的理论值;红色是真实值,两个应该比较接近才比较好;
(3)当红色的线出现双峰,基本肯定是混入了其他物种的DNA序列;
八、N的比例统计
(1)横轴为1-51个碱基的位置;纵轴为N值的百分比;
(2)N值是当测序仪器不能辨别某条reads的某个位置到底是什么碱基时,就会产生"N";序列中N值占比越小越好;
(3)可见上图中N值占比非常小,测序质量较好;
九、测序长度统计:
(1)理论上测序仪测出来的长度应完全相等,但是总会有一些偏差;
(2)以上图中测序长度主要为51bp,有少量50bp和52bp长度的序列存在,不影响后续分析;
十、重复序列统计:
(1)横轴表示序列重复的次数(如1表示unique序列,2表示有2条完全相同地reads);纵轴表示重复序列所占的百分比;
(2)红线表示有约相当于unique reads数目的15%的reads是观察到两个重复的,以此类推;
(3)图中所示大多数reads都无重复现象,说明测序情况良好;
十一、接头占比:
(1)横轴为碱基1-51的位置;纵轴为接头所占比例;
(2)上图中可见数据中的adapter都已经去除;
(3)如果有adapter序列没有去除干净的情况,在后续分析时需先使用cutadapt软件去接头;