【文献阅读笔记】(2):使用IMPUTES2和minimac软件完成群体特异性的基因型填充(Imputation)

摘要

文章来源于Nature Protocol

  • 本篇文章提供了一份guideline来使用minimac和IMPUTE2完成基因型填充。
  • 文章用于基因型填充的群体特异性数据来源于GoNL(Genome of the Netherlands)组织
  • 除了软件的使用指南之外,本文也阐述了影响基因型填充(Imputation)质量的多个因素

1. 介绍-Introduction

1.1 基本知识
  • 很多GWAS数据虽然产生于不同的平台,这些来自不同平台和不同队列的GWAS数据可以组合在一起进行Meta分析。通过基因型填充,可以制作出用于Meta分析的同源数据集。
  • 基因型填充的基本原理是,基于一个或多个参考SNP集(例如1000genome的数据),来利用算法推理填补目标数据集中的缺失部分。
  • 基因分型和基因型填充如果做的不好,将引起GWAS分析的偏差并且影响后续meta分析的质量
  • 作为本篇文章的补充,建议阅读以下一系列文章来提高imputation和meta分析的质量
    • Anderson, C.A. et al. Data quality control in genetic case-control association studies. Nat. Protoc. 5, 1564–1573 (2010).
    • Verma, S.S. et al. Imputation and quality control steps for combining multiple genome-wide datasets. Front. Genet. 5, 370 (2014
    • Winkler, T.W. et al. Quality control and conduct of genome-wide association meta-analyses. Nat. Protoc. 9, 1192–1212 (2014)
1.2 GoNL参考数据集简介
  • 构建一个用于基因型填充的新的参考数据集,是一件较为复杂的事情。它需要有(1)高密度的基因分型数据和(2)从特定人群的样本的基因型数据(称为定相)准确估计单倍型。
  • 常见的用于基因型填充的参考数据集来源于HapMap计划和1000 Genomes计划。这两个计划都包含了来自多个群体的样本,因此参考数据集中可能无法展现 某个低频突变的给定基因型
  • 此外,当属于不同地理人口的样本百分比超过一定比例时,基因型填充的质量不会提高。

GoNL的低频突变数据集简介
GoNL创建了一个低频突变数据集,用于识别各种低频突变与表型之间的变异关联。
此数据集的基本信息是:

  • 人群均为荷兰血统,包含231份父母及其子女(三人家系)的数据,和19份父母及其子女(四人家系)的全基因组测序数据。
  • 每份数据的测序深度均达到12x以上

数据集的优点有:
(1):三人家系的设计,提高了单倍体型的质量
(2):本数据集的覆盖度大大高于1000基因组计划中数据的覆盖度
(3):测序的样本来源于同源的群体。

单倍体型的数据质量将大大提升单个样本中的基因型填充准确度(特别是低频变异)。
数据集的获取方式:
打开网址,http://www.nlgenome.nl/ ,菜单中点击Request data即可。参考数据集可以以VCF的格式下载。
本篇文章使用了GoNL中的第四版本的参考数据集,其中包含499个荷兰血统的人和19,562,004个常染色体的SNP

1.3 进行基因型填充(Imputaion)的工具

最常见的用于基因型填充的工具有:minimacIMPUTE2Beagle
选择软件工具的因素取决于我们目标数据集的性质,以及可用的计算资源。
workflow
minimac

  • minimac可以从网上免费下载,并且可获取开源代码
  • minimac不提供phasing功能,所以若使用minimac,Phasing需要由MaCHSHAPEIT2来执行

IMPUTE2

  • IMPUTES2可以从网上下载,但只能用于学术使用,且不提供源代码
  • IMPUTES2可以同时提供phasing和imputation的功能(但是IMPUTES2的作者还是推荐大家使用SHAPEIT2来完成phasing)
  • IMPUTES2可以合并两个参考数据集来进行Imputation(即,它可以将1000 Genome中的参考数据和GoNL中的参考数据结合在一起,对目标数据集进行基因型推断),从而大大提高基因型填充的质量。

输入数据
不同的软件,所需输入的参考数据(reference set)格式也不同。GoNL,1000Genome计划,HapMap计划的数据格式均为VCF格式。

  • IMPUTES2需要转换数据格式 使用软件 VCFtools 可以将VCF格式的文件转化为IMPUTE2所需的参考单倍型数据格式。IMPUTE2的作者也提供了一个perl语言的脚本,帮助用户完成数据格式的转换。
  • minima则不需要进行数据格式转换,它可以直接用原始的VCF数据进行操作。

输出数据
软件们都会有多个输出文件。

  • 第一个 是“信息”文件,info 文件包含这些信息: SNP name(SNP的名字),the base-pair positions(配对碱基的位置),等位基因频率,以及R^2值 。(R^2值越大,意味着基因型填充的准确性越高)
  • 第二个 是概率文件。IMPUTE2将输出三种基因型(AA,AB,BB)各自的概率;minimac输出的是等位基因1纯合子的概率和杂合子的概率。其中minimac可以输出最佳预测的基因型,并且直接输出Dosage文件。可以使用工具 fcGENE 将IMPUTE2的结果转换为dosage文件

Tips

  • R^2值
  • dosage文件
1.4 对待填充的目标数据集进行质量控制

影响基因型填充的因素有多个:

  • (1)数据集的质量
    为了获取高质量的基因型填充结果,我们需要对目标数据集提前执行质量控制(过滤去除低质量的数据和标记),如果可能的话,也有必要对参考数据集进行质量控制。Anderson和Verma提供了详尽的文字来说明如何对每个标记和个人进行质量控制(见上文的推荐阅读)
  • (2)测序所使用的芯片平台的情况。
    • 高密度的芯片,拥有更高的数据质量,低密度的芯片在GWAS领域的应用效果则不是很好。因此检查用于基因型检测的芯片平台,是提升基因型填充的很重要的因素之一。
  • (3)链
  • 每个基因型都会被mapping到特异链上,因此需要仔细检查链比对(strand alignment)是否有错误。Deelen等人发表过方法来解决无义链的问题。对于基因型填充来说,基因型需要比对到正链上,很多基因型填充的工具也是默认目标数据集和参考数据集在同一条正链上。
  • (4)目标数据集和参考数据集需要在同样的基因组坐标上。
  • 不同的基因组坐标中,同一个snp可能会有多种名称,因此,目标数据集和参考基因组需要是同样的坐标体系。(例如都是hg19,或者hg38)
  • 如果参考数据集和目标数据集使用了不同的基因组坐标系统,建议把目标数据集进行重新比对。或者使用软件 liftOver 转换基因组的坐标体系

在进行Imputaion的时候,还需要特别注意两点:

  • (1)种群不同带来的差异。

待完善

  • 2
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: `kernel.mice(2)` 翻译成中文的意思是 `核心.多重离散数据插补(2)`,是缺失值插补方法之一,用于处理多重离散数据中的缺失值。它是通过模拟马尔科夫链来生成缺失值的多个可能值,然后通过多个回归模型进行插补。其中的参数 2 表示生成的多个可能值的数量。这个方法通常用于处理分类变量中的缺失值。 ### 回答2: 在Python中,kernel.mice(2) 是一种基于多元插补的方法,用于处理数据中的缺失值。该方法使用鼠标算法(Multiple Imputation by Chained Equations, MICE)来估计缺失值,并生成多个完整的数据集。 具体而言,kernel.mice(2)是通过迭代的方式,将数据集中的缺失值替换为估计值。首先,算法通过观察到的数据计算缺失值的条件分布。然后,它使用这些条件分布来模拟缺失值的多个可能值,以创建多个完整的数据集。随后,对于每个数据集,算法会执行建模和分析,得到对应的估计值。最后,每个数据集的估计值被合并成一个单一的结果。 使用kernel.mice(2)可以更好地处理缺失值,因为它考虑了特征之间的相互依赖关系。当数据集中存在多个缺失值或缺失值的分布有一定复杂性时,该方法可以提供更准确的估计。 总之,kernel.mice(2)是一种用于处理缺失值的方法,它通过多元插补和迭代的方式,生成多个完整的数据集,并利用这些数据集进行估计和分析。 ### 回答3: kernel.mice(2)是Python中一个函数的调用,意思是调用名为"kernel.mice"的函数并传入参数值为2。函数名中的"kernel"可能指的是某个核心功能或者框架,而"mice"可能是函数的具体功能或者用途的名称。传入的参数2可能是函数需要使用的某个变量或者数值。具体的功能和参数的含义需要查看函数的定义或者文档来确定。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值