生信软件38 - 基因型填充软件IMPUTE2

1. IMPUTE2简介

IMPUTE2是一款基因型填充软件,可执行预定相和填充,准确率较高。

IMPUTE2说明文档: https://mathgen.stats.ox.ac.uk/impute/impute_v2.html#ex2

2. IMPUTE2下载安装

tgz压缩包解压后会存在一个Example的目录,用于运行后续的示例程序。

# 下载压缩包,linux静态版本
wget https://mathgen.stats.ox.ac.uk/impute/impute_v2.3.2_x86_64_static.tgz

# 解压
tar -zxvf impute_v2.3.2_x86_64_static.tgz

IMPUTE2参数说明:

输入参数

-g : 分析或填充的输入基因型文件,文件格式参考: http://www.stats.ox.ac.uk/%7Emarchini/software/gwas/file_format.html

-m:待分析区域的精细重组率文件,对于有三列:position, COMBINED_rate(cM/Mb), Genetic_Map(cM),分别表示:物理位置(以bp为单位),当前位置和图中下一个位置之间的重组率(以cM/Mb为单位),遗传图位置(以cM为单位),下载解压参考面板时会包含此文件。

-int: 推断的基因组间隔, 使用两个数字指定要在当前染色体上估算的区域边界。可以直接使用**-int 5420000 10420000**)或以指数表示法(例如,-int 5.42e6 10.42e6)作为输入。 IMPUTE 2要求指定分析间隔,如果要填充大于7 Mb的区域(通常不建议使用),则必须添加-allow_large_regions参数。

-h: 已知单倍型的文件,每个SNP一行,每个单倍型一列。所有等位基因必须编码为0或1,每个-h文件必须提供相应的legend文件(且对于顺序相同)。IMPUTE2提供了来自HapMap项目和1,000个基因组项目的格式化单倍型下载。

-l: 包含SNP相关信息的legend文件,每个文件应该有四列:rsID、物理位置(以碱基对为单位)、等位基因0和等位基因1,后两列指定0/1编码的等位基因; 这些等位基因可以采用{A,C,G,T}中的值。

-g_ref: 包含未定相基因型的文件,用作填充的参考样本组,与-g输入文件格式相同。-g_ref文件可用作插补的唯一参考面板,也可与单个-h文件组合以创建双层参考面板(在后一种情况下,-g_ref文件应大致包含-h文件中SNP的子集)。

-known_haps_g: 包含研究队列已知单倍型的文件。该格式与IMPUTE 2的-phase选项的输出格式相同:每个个体有5个标题列(如-g文件中所示),后跟2个列(单倍型)。单倍型列中允许的值为0、1和?。

输出参数

-o:主输出文件的名称, 与-g文件相同的格式。

-i:输出SNP信息文件的名称,每个SNP一行,开头有一个标题行。

-r:输出日志文件名称。

-w:记录IMPUTE2生成的警告信息文件名。

-os:指定输出文件的SNP类型,默认情况下,所有插补和基因分型的SNP都包括在输出中,即,“-os 0 1 2 3“。

-o_gz: 主输出文件通过gzip进行压缩。

-outdp:指定主输出文件中报告基因型概率的小数位数。

-phase: 告诉程序打印从定相过程产生的最佳猜测单体型

-pgs:告诉程序用-o文件中的估算基因型替换-g文件中的输入基因型(仅适用于2型SNP)。

-pgs_miss:与-pgs不同,-pgs用估算的基因型替换所有输入的基因型,该选项告诉程序仅替换已分型SNP处缺失的基因型。也就是说,任何最大概率超过-call_thresh的输入基因型将简单地重新打印在-o文件中,而低于调用阈值的输入基因型将在输出中填充。

其他参数

-k_hap: 使用多少个参考单倍型。默认值为500

-Ne: 控制IMPUTE 2使用的群体遗传模型中的有效群体大小,建议通用的**-Ne值为20000**;IMPUTE 2在宽范围的Ne值上实现了高精度,在值较大时精度略高;

-buffer: 在-int选项指定的分析间隔的每一侧包含的缓冲区长度(kb)。缓冲区中的SNP通知推断,但不会出现在输出文件中(除非激活-include_buffer_in_output标志)。使用缓冲区有助于防止插补质量在分析区间边缘附近恶化。较大的缓冲区可以提高低频变体的准确性,但运行时间更长。

-allow_large_regions:允许分析大于7 Mb的区域。如果此标志未激活,并且分析间隔加上缓冲区超过7 Mb,则程序将退出并显示错误。

-include_buffer_in_output: 告诉程序在所有输出文件中包括来自-buffer区域的SNP。

-call_thresh:在-g文件中调用基因型的阈值。对于每个SNP的每个个体,如果概率超过阈值,则程序将使用具有最大概率的基因型;否则,基因型将被视为缺失,此阈值仅适用于输入基因型。

-nind: 要包括在分析中的-g文件中的个体数。例如,如果只估算前五个个体,则set-nind 5。此选项对于调试和测试运行非常有用。

-verbose:打印有关填充进度的详细输出。

填充区间不应太大,因为这会削弱IMPUTE 2在选择定制参考样本组时的近似值,该近似值基于所分析区域中有限重组的假设。从理论上讲,可能需要根据被估算的人群调整区间大小,例如,但是在实践中,我们发现,只要间隔相对较小(比如10 Mb),间隔的确切大小对插补精度的影响就很小。因此,我们建议选择分析区间的大小以方便计算,而不考虑研究或参考数据集的血统。

3. 参考数据下载

可下载HapMap3和1000G基因组计划的人类遗传变异数据,包含非洲、亚洲、欧洲和美洲多个采样地点的样本。在基因型填充时,选择对应人群的参考面板,可提高填充的准确度。

![[Pasted image 20241016140834.png]]

基于2,504个样本的序列数据, 1000G单倍型-NCBI build 37(hg 19)坐标中的整合变体集。

# 1-22常染色体
wget https://mathgen.stats.ox.ac.uk/impute/1000GP_Phase3.tgz
tar -zxvd 1000GP_Phase3.tgz


# X性染色体
wget https://mathgen.stats.ox.ac.uk/impute/1000GP_Phase3_chrX.tgz
tar -zxvd 1000GP_Phase3_chrX.tgz

压缩文件包含:

(1).hap.gz, 每个常染色体的文件, IMPUTE的分阶段单体型文件

(2).legend.gz, 每个常染色体的文件, IMPUTE图例文件;

	column 1 (id): 变量ID
	column 2 (position): 碱基对位置
	column 3 (a0): 在.hap文件中标记为“0”的等位基因
	column 4 (a1): .hap文件中标记为“1”的等位基因
	column 5 (TYPE): SNP/INDEL/SV表示双等位基因变体的类型
	column 6-10 (AFR, AMR, EAS, EUR, SAS): 人群ALT等位基因频率
	column 11 (ALL): 所有样本的ALT等位基因频率

(3)genetic_map: 基因图谱, IMPUTE遗传图谱文件。

(4)1000GP_Phase3.sample:单倍型文件中个体的样本ID、群体和人群的文本文件。每个样品有两个单倍型,并且单倍型的列顺序与样品ID的行顺序匹配,其中EAS (East Asians)表示东亚人,SAS (Southern Asians)表示南亚人。

生信软件文章推荐

生信软件1 - 测序下机文件比对结果可视化工具 visNano

生信软件2 - 下游比对数据的统计工具 picard

生信软件3 - mapping比对bam文件质量评估工具 qualimap

生信软件4 - 拷贝数变异CNV分析软件 WisecondorX

生信软件5 - RIdeogram包绘制染色体密度图

生信软件6 - bcftools查找指定区域的变异位点信息

生信软件7 - 多线程并行运行Linux效率工具Parallel

生信软件8 - bedtools进行窗口划分、窗口GC含量、窗口测序深度和窗口SNP统计

生信软件9 - 多公共数据库数据下载软件Kingfisher

生信软件10 - DNA/RNA/蛋白多序列比对图R包ggmsa

生信软件11 - 基于ACMG的CNV注释工具ClassifyCNV

生信软件12 - 基于Symbol和ENTREZID查询基因注释的R包(easyConvert )

生信软件13 - 基于sambamba 窗口reads计数和平均覆盖度统计

生信软件14 - bcftools提取和注释VCF文件关键信息

生信软件15 - 生信NGS数据分析强大的工具集ngs-bits

生信软件16 - 常规探针设计软件mrbait

生信软件17 - 基于fasta文件的捕获探针设计工具catch

生信软件18 - 基于docker部署Web版 Visual Studio Code

生信软件19 - vcftools高级用法技巧合辑

生信软件20 - seqkit+awk+sed+grep高级用法技巧合辑

生信软件21 - 多线程拆分NCBI-SRA文件工具pfastq-dump

生信软件22 - 测序数据5‘和3‘端reads修剪工具sickle

生信软件23 - Samtools和GATK去除PCR重复方法汇总

生信软件24 - 查询物种分类学信息和下载基因组TaxonKit和ncbi-genome-download

生信软件25 - 三代测序数据灵敏比对工具ngmlr

生信软件26 - BWA-MEM比对算法性能更好的bwa-mem2

生信软件27 - 基于python的基因注释数据查询/检索库mygene

生信软件28 - fastq与bam的reads数量计算与双端fastq配对检测工具fastq-pair

生信软件29 - 三代数据高效映射精确的长读段比对工具mapquik

生信软件30 - 快速单倍型分析工具merlin

生信软件31 - Bcftools操作VCF/BCF文件高级用法合集

生信软件32 - 变异位点危害性评估预测工具合集

生信软件33 - Wgsim生成双端(PE) fastq模拟数据

生信软件34 - 大幅提升Python程序执行效率的工具Pypy

生信软件35 - AI代码编辑器Cursor

生信软件36 - SAM/BAM/CRAM文件插入SNV/INDEL/SV工具Bamsurgeon

生信软件37 - 基于测序reads变异进行单倍型分型工具WhatsHap

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

生信与基因组学

每一份鼓励是我坚持下去动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值