GWAS 学习笔记:基因型数据格式转换与工具使用
1. 常见基因型数据格式
在全基因组关联分析(GWAS)中,常见的基因型数据格式包括:
- VCF(Variant Call Format):用于存储基因组变异信息的标准格式,支持多种变异类型(如 SNP、InDel 等),广泛用于基因组学研究。
- HapMap 格式:一种简单的文本格式,用于存储基因型数据,适合群体遗传学分析。
- PED(Pedigree)格式:用于存储基因型和家系信息的文本格式,常与 MAP 文件一起使用。
- BED(Binary PED)格式:PED 格式的二进制版本,存储效率高,适合大规模数据处理。
1. VCF(Variant Call Format)
特点
- 标准格式:广泛用于存储基因组变异信息,支持多种变异类型(如 SNP、InDel、结构变异等)。
- 灵活性:可以存储丰富的变异信息,包括变异位置、基因型、质量分数、注释等。
- 扩展性:支持自定义注释字段,适合不同研究需求。
示例
##fileformat=VCFv4.2
##source=myImputationProgramV3.1
##INFO=<ID=NS,Number=1,Type=Integer,Description="Number of Samples With Data">
##INFO=<ID=DP,Number=1,Type=Integer,Description="Total Depth">
##INFO=<ID=AF,Number=A,Type=Float,Description="Allele Frequency">
##FORMAT=<ID=GT,Number=1,Type=String,Description="Genotype">
##FORMAT=<ID=GQ,Number=1,Type=Integer,Description="Genotype Quality">
##FORMAT=<ID=DP,Number=1,Type=Integer,Description="Read Depth">
#CHROM POS ID REF ALT QUAL FILTER INFO FORMAT Sample1 Sample2
1 101 rs1234 A T 45 . NS=3;DP=10;AF=0.5 GT:GQ:DP 0/1:48:4 1/1:43:5
1 102 rs5678 C G 50 . NS=3;DP=11;AF=0.3 GT:GQ:DP 0/0:50:5 0/1:45:6
字段说明
#CHROM
:染色体编号POS
:变异位置ID
:变异标识符(如 rs 编号)REF
:参考基因组的碱基ALT
:变异碱基QUAL
:变异质量分数FILTER
:过滤信息INFO
:额外的变异信息FORMAT
:样本格式字段Sample1
、Sample2
:样本的基因型信息
2. HapMap 格式
特点
- 简单文本格式:易于阅读和处理,适合群体遗传学分析。
- 固定列结构:每行代表一个位点,每列代表一个样本的基因型。
示例
rs# alleles chrom pos strand assembly# center protLSID assayLSID Sample1 Sample2 Sample3
rs1234 A/T 1 101 + NCBI36 . . . A/A A/T T/T
rs5678 C/G 1 102 + NCBI36 . . . C/C C/G G/G
字段说明
rs#
:变异标识符(如 rs 编号)alleles
:等位基因(如 A/T)chrom
:染色体编号pos
:变异位置strand
:链方向(+ 或 -)assembly#
:基因组组装版本center
:测序中心protLSID
、assayLSID
:实验信息Sample1
、Sample2
、Sample3
:样本的基因型
3. PED(Pedigree)格式
特点
- 文本格式:用于存储基因型和家系信息。
- 常与 MAP 文件一起使用:MAP 文件存储位点信息,PED 文件存储样本基因型。
示例(PED 文件)
FamilyID SampleID PatID MatID Sex Phenotype Marker1 Marker2
Fam1 Sample1 0 0 1 1 A/A C/C
Fam1 Sample2 0 0 2 1 A/T C/G
Fam1 Sample3 0 0 1 2 T/T G/G
字段说明
FamilyID
:家系编号SampleID
:样本编号PatID
:父亲编号MatID
:母亲编号Sex
:性别(1 为男性,2 为女性)Phenotype
:表型信息(1 为对照,2 为病例)Marker1
、Marker2
:位点的基因型
示例(MAP 文件)
chr1 Marker1 0 101
chr1 Marker2 0 102
字段说明
chr1
:染色体编号Marker1
、Marker2
:位点名称0
:未使用的字段101
、102
:位点位置
4. BED(Binary PED)格式
特点
- 二进制格式:存储效率高,适合大规模数据处理。
- 与 PED 格式配套:由 PLINK 工具生成,常用于 GWAS 分析。
示例
BED 文件是二进制格式,无法直接查看,但可以通过 PLINK 工具生成和读取。例如:
# 将 PED 文件转换为 BED 格式
plink --file input --make-bed --out output
生成的文件包括:
output.bed
:二进制基因型数据output.bim
:位点信息(类似于 MAP 文件)output.fam
:样本信息(类似于 PED 文件的前 6 列)
示例(BIM 文件)
chr1 Marker1 0 101 A T
chr1 Marker2 0 102 C G
字段说明
chr1
:染色体编号Marker1
、Marker2
:位点名称0
:未使用的字段101
、102
:位点位置A
、T
、C
、G
:等位基因
示例(FAM 文件)
Fam1 Sample1 0 0 1 1
Fam1 Sample2 0 0 2 1
Fam1 Sample3 0 0 1 2
字段说明
Fam1
:家系编号Sample1
、Sample2
、Sample3
:样本编号0
:父亲编号0
:母亲编号1
、2
:性别(1 为男性,2 为女性)1
、2
:表型信息(1 为对照,2 为病例)
2. 数据格式转换工具
在 GWAS 分析中,数据格式转换是常见的操作,主要使用以下工具:
2.1 TASSEL
TASSEL 是一个用于关联分析和群体遗传学研究的软件工具,支持多种基因型数据格式的导入和转换。其核心脚本 run_pipeline.pl
提供了强大的数据处理功能,例如:
- VCF 到 HapMap:
run_pipeline.pl \ -Xms1G -Xmx5G \ -SortGenotypeFilePlugin \ -inputFile demo.vcf \ -outputFile demo.sort.vcf \ -fileType VCF run_pipeline.pl \ -Xms1G -Xmx5G \ -importGuess demo.sort.vcf \ -ExportPlugin \ -format HapmapDiploid \ -saveAs demo.hmp.txt
- HapMap 到 VCF:
run_pipeline.pl \ -Xms1G -Xmx5G \ -SortGenotypeFilePlugin \ -inputFile demo.hmp.txt \ -outputFile demo.sort.hmp.txt \ -fileType Hapmap run_pipeline.pl \ -Xms1G -Xmx5G \ -importGuess demo.sort.hmp.txt \ -ExportPlugin \ -format VCF \ -saveAs demo.h2v.vcf
2.2 PLINK
PLINK 是一个广泛使用的全基因组关联研究工具,支持多种基因型数据格式的转换,例如:
- VCF 到 PED:
plink \ --vcf demo.vcf \ --recode \ --out demo \ --set-missing-var-ids @:# --allow-extra-chr
- PED 到 VCF:
plink \ --file demo \ --recode vcf-iid \ --out demo.p2v \ --set-missing-var-ids @:# --allow-extra-chr
- VCF 到 BED:
plink \ --vcf demo.vcf \ --make-bed \ --out demo \ --set-missing-var-ids @:# --allow-extra-chr
- BED 到 VCF:
plink \ --bfile demo \ --recode vcf \ --out demo.b2v \ --set-missing-var-ids @:# --allow-extra-chr
3. 转换文件类型的原因
在 GWAS 中,转换文件类型主要有以下几方面的原因:
- 适配不同的分析工具:不同工具支持的文件格式不同,转换格式可以确保数据能够被特定工具正确读取和处理。
- 优化数据处理效率:某些格式(如 BED)在存储和处理效率上更具优势,适合大规模数据处理。
- 数据预处理和质控:某些工具在特定格式下提供更强大的预处理功能,转换格式可以方便地进行数据过滤和质控。
- 满足特定分析方法的要求:不同的分析方法可能需要特定格式的数据,转换格式可以确保数据符合分析要求。
4. 总结
在 GWAS 分析中,数据格式转换是重要的预处理步骤。通过使用 TASSEL 和 PLINK 等工具,可以灵活地在不同格式之间转换数据,从而适配不同的分析工具、优化处理效率、进行数据预处理和质控,并满足特定分析方法的要求。