继续研究IDAT文件的读取问题,目前遇到的问题的是如何提取detectP value. Detect P value是测序过后,每一个芯片上的数据的可信度,也就是说,芯片上有那么多CpG,有时候可能会因为人为的失误,导致有些数据出现错误,在那种时候,我们就需要先评测一下每一个CpG的可信度有多高,如果可信度太低,也就是说,这个位点很有可能出错了,我们就把这个位点直接删除,以免它影响了我们的分析。
具体来说,应该如何判断一个CpG是不是“测序质量差”呢?在illumina的DNA Methylation芯片中,有一系列的Control Probe,就是说对照位点,那些对照位点的作用就是让你用它们来比较,测出来的CpG位点是不是正确的。
比如说,以450K的Annotation为例,在Annotation中,包含了850个Probe,这些Probe的作用各异,不过主要的作用,就是让人们与之做出比较。
比如上边的截图,第一列是各种不同功能的对照,有的是用来看Extension的,有的是用来看Bisulfile Conversion的,很多我也不知道是做什么的,太复杂了&#x