获得重测序的数据之后,我们需要对其质控、过滤,最后通过gatk软件进行caling-snp.然而,自己calling-snp的vcf文件中存在基因型缺失,因此需要进行基因型填补。
1.意义:
1)对于基因型缺失率较高的数据进行填补,可以提高全基因组遗传标记的覆盖度
2)可降低测序的成本,采用低深度测序+基因型填充,较大程度上提高了数据的利用率和节约成本
3)大部分软件或分析方法不允许缺失数据,否则会报错
2.应用:
大样本低深度重测序SNP/INDEL/CNV项目;大样品高密度SNP芯片分型项目
3.常见的软件:
1)STITCH
2)BEAGLE
3)KNN
4)IMPUTE2
4.测序深度的选择
标记的质量、标记在基因组上的覆盖度与测序深度密切相关,利用重测序的方法进行分型时,选择合适的测序深度可以在保证达到研究的效果同时还能节省经费。
建议:比较纯的自交系推荐5*以上;杂合位点比较多时推荐10*以上;大片段SV变异推荐30*以上
5.填补不是最佳选择
主要取决于经费和研究问题的性质
1)填补方法对杂合度较高的基因型处理效果不佳
2)若有填补错误位点的存在,很可能会对关联结果造成影响
6. 基因型过滤类型
1) 哈迪温伯格平衡过滤:较常用
2)基因型异常样本的去除:对某个样品中的基因型缺失率较高时应删除该样品
3)多等位位点的过滤:此主要是由于多数软件(包括群体结构,关联分析软件)只能接受二等位位点
4)按等位基因频率过滤:通常去除第二等位基因频率MAF小于5%的位点,样品量较大的群体中,可放宽至1%
5)按分型百分比条件过滤:某些基因型在所有样品中的缺失率超过20%,则将此基因型剔除;但在样品量较大的群体中,缺失率可提高至50%