基因型填补

文章讨论了在重测序数据处理中基因型填补的重要性,包括提高全基因组遗传标记覆盖度、降低成本和适应软件要求。提到了STITCH、BEAGLE等填补工具,并指出填补的适用场景如低深度重测序项目。建议的测序深度与基因型过滤方法如哈迪温伯格平衡过滤也被提及。同时,文章警告了填补的局限性,如对杂合度高的基因型处理不佳以及可能影响关联分析的结果。
摘要由CSDN通过智能技术生成

获得重测序的数据之后,我们需要对其质控、过滤,最后通过gatk软件进行caling-snp.然而,自己calling-snp的vcf文件中存在基因型缺失,因此需要进行基因型填补。

1.意义:

1)对于基因型缺失率较高的数据进行填补,可以提高全基因组遗传标记的覆盖度

2)可降低测序的成本,采用低深度测序+基因型填充,较大程度上提高了数据的利用率和节约成本

3)大部分软件或分析方法不允许缺失数据,否则会报错

2.应用:

大样本低深度重测序SNP/INDEL/CNV项目;大样品高密度SNP芯片分型项目

3.常见的软件:

1)STITCH

2)BEAGLE

3)KNN

4)IMPUTE2

4.测序深度的选择

标记的质量、标记在基因组上的覆盖度与测序深度密切相关,利用重测序的方法进行分型时,选择合适的测序深度可以在保证达到研究的效果同时还能节省经费。

建议:比较纯的自交系推荐5*以上;杂合位点比较多时推荐10*以上;大片段SV变异推荐30*以上

5.填补不是最佳选择

主要取决于经费和研究问题的性质

1)填补方法对杂合度较高的基因型处理效果不佳

2)若有填补错误位点的存在,很可能会对关联结果造成影响

6. 基因型过滤类型

1) 哈迪温伯格平衡过滤:较常用

2)基因型异常样本的去除:对某个样品中的基因型缺失率较高时应删除该样品

3)多等位位点的过滤:此主要是由于多数软件(包括群体结构,关联分析软件)只能接受二等位位点

4)按等位基因频率过滤:通常去除第二等位基因频率MAF小于5%的位点,样品量较大的群体中,可放宽至1%

5)按分型百分比条件过滤:某些基因型在所有样品中的缺失率超过20%,则将此基因型剔除;但在样品量较大的群体中,缺失率可提高至50%

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值