技术特征:
1.一种通过计算机程序模拟产生简化DNA甲基化测序数据的方法,其特征在于,具体包括以下四个步骤:
(1)模拟产生包含单碱基插入、缺失、单核苷酸变异和结构变异特性的参考基因组序列,变异参数可由用户设定;
(2)在步骤(1)得到的参考基因组上模拟CpG二核苷酸位点上的甲基化水平:使用Beta统计模型来产生CpG位点的甲基化数值;考虑到真实数据中邻近CpG位点的强相关性,对100bp距离内的CpG位点的甲基化水平进行基于最大似然统计模型的修正;
(3)对步骤(2)得到的基因组序列进行计算机模拟生物体内的限制性酶切过程,记录相应的切割位置得到切割片段fragments,然后根据服从泊松分布的覆盖度参数,模拟产生单端或者双端的测序读长reads;可以通过内部选择过程,得到定向或者非定向文库的测序片段;
(4)模拟产生测序数据的质量文件:在Illumina测序中,碱基的测序质量值和它在读长中所处位置有关,使用大量真实数据训练集来拟合Illumina测序的碱基质量分布,得到碱基的经验误差分布,并且用于产生数据的质量值情况。
2.根据权利要求1所述的通过计算机程序模拟产生简化DNA甲基化测序数据的方法,其特征在于:所述参考基因组包括人类各个版本参考基因组。
3.根据权利要求1所述的通过计算机程序模拟产生简化DNA甲基化测序数据的方法,其特征在于:所述计算机模拟的限制性酶切包括所有限制性内切酶。