GWAS: 网页版的基因型填充(genotype imputation)

在全基因组关联分析中,处理芯片数据时,必须走的一个流程就是基因型数据填充(imputation)。

当然,如果你拿到的是全测序的数据,请忽略这一步。

下面直奔主题,怎么在网页版进行基因型填充。

1 进入Michigan Imputation Server

Michigan Imputation Server网站链接:https://imputationserver.sph.umich.edu/index.html#!pages/home

进入该网站,进行注册。

注册完以后,接下来准备imputation需要的输入文件

2 准备imputation需要的输入文件

Michigan Imputation Server网站只接受压缩包的vcf格式(vcf.gz),故需要先将手头上的文件转化为vcf.gz格式

2.1 转化ped/map为vcf格式文件

plink --ped mystudy_chr1.ped --map mystudy_chr1.map --recode vcf --out mystudy_chr1

2.2 将vcf格式文件压缩为vcf.gz格式

这一步骤需要安装VCFtoolstabix两个工具

安装成功后,使用如下命令:

vcf-sort mystudy_chr1.vcf | bgzip -c > mystudy_chr1.vcf.gz

3 上传数据

以下两种方式任选一种。

3.1 上传vcf.gz文件的方式

具体使用操作见下图:

E6e2lt.jpg

3.2 上传链接的方式

E6eokQ.jpg

4 坐等邮件, 收结果

转载于:https://www.cnblogs.com/chenwenyan/p/10830207.html

基因型填充是指根据已有的基因型数据来推断缺失位点的基因型。Plink是常用的进行基因型填充的软件之一。在基因型填充过程中,Plink使用了多种算法和方法来准确估计缺失位点的基因型。 Plink的基因型填充功能可以通过使用不同的命令行选项来实现。其中最常用的是"--fill-missing-genotypes"选项,该选项允许使用不同的方法进行基因型填充。这些方法包括最大似然估计、EM算法和贝叶斯方法等。用户可以根据自己的需求选择合适的填充方法。 在进行基因型填充之前,需要注意样本的数据质量以及所使用的参考数据的质量。样本数据的质量可以通过分析分型结果的准确率来评估,而参考数据的质量可以通过参考面板的选择来控制。此外,样本量的大小和SNP的密度也会对基因型填充的准确性产生影响。 为了保证基因型填充的准确性,还需要考虑样本的杂合度和哈温平衡。在进行基因型填充之前,需要确保样本符合哈温平衡的假设。如果样本中存在纯合基因型或杂合度较低的样本,可能会导致填充结果的不准确性。在GWAS分析中,通常需要移除这些样本以保证群体符合哈温平衡的假设。 总结起来,基因型填充是使用已有的基因型数据来推断缺失位点的基因型。Plink是常用的进行基因型填充的软件之一,它提供了多种方法和算法来实现基因型填充。在进行基因型填充之前,需要注意样本数据的质量、参考数据的质量以及样本的杂合度和哈温平衡。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值