GWAS 学习笔记:基因型数据格式转换与工具使用

GWAS 学习笔记:基因型数据格式转换与工具使用

1. 常见基因型数据格式

在全基因组关联分析(GWAS)中,常见的基因型数据格式包括:

  • VCF(Variant Call Format):用于存储基因组变异信息的标准格式,支持多种变异类型(如 SNP、InDel 等),广泛用于基因组学研究。
  • HapMap 格式:一种简单的文本格式,用于存储基因型数据,适合群体遗传学分析。
  • PED(Pedigree)格式:用于存储基因型和家系信息的文本格式,常与 MAP 文件一起使用。
  • BED(Binary PED)格式:PED 格式的二进制版本,存储效率高,适合大规模数据处理。

1. VCF(Variant Call Format)

特点

  • 标准格式:广泛用于存储基因组变异信息,支持多种变异类型(如 SNP、InDel、结构变异等)。
  • 灵活性:可以存储丰富的变异信息,包括变异位置、基因型、质量分数、注释等。
  • 扩展性:支持自定义注释字段,适合不同研究需求。

示例

##fileformat=VCFv4.2
##source=myImputationProgramV3.1
##INFO=<ID=NS,Number=1,Type=Integer,Description="Number of Samples With Data">
##INFO=<ID=DP,Number=1,Type=Integer,Description="Total Depth">
##INFO=<ID=AF,Number=A,Type=Float,Description="Allele Frequency">
##FORMAT=<ID=GT,Number=1,Type=String,Description="Genotype">
##FORMAT=<ID=GQ,Number=1,Type=Integer,Description="Genotype Quality">
##FORMAT=<ID=DP,Number=1,Type=Integer,Description="Read Depth">
#CHROM  POS     ID      REF     ALT     QUAL    FILTER  INFO    FORMAT  Sample1 Sample2
1       101     rs1234  A       T       45      .       NS=3;DP=10;AF=0.5      GT:GQ:DP  0/1:48:4  1/1:43:5
1       102     rs5678  C       G       50      .       NS=3;DP=11;AF=0.3      GT:GQ:DP  0/0:50:5  0/1:45:6

字段说明

  • #CHROM:染色体编号
  • POS:变异位置
  • ID:变异标识符(如 rs 编号)
  • REF:参考基因组的碱基
  • ALT:变异碱基
  • QUAL:变异质量分数
  • FILTER:过滤信息
  • INFO:额外的变异信息
  • FORMAT:样本格式字段
  • Sample1Sample2:样本的基因型信息

2. HapMap 格式

特点

  • 简单文本格式:易于阅读和处理,适合群体遗传学分析。
  • 固定列结构:每行代表一个位点,每列代表一个样本的基因型。

示例

rs#      alleles chrom   pos     strand  assembly#       center  protLSID        assayLSID       Sample1 Sample2 Sample3
rs1234   A/T     1       101     +       NCBI36  .       .       .       A/A     A/T     T/T
rs5678   C/G     1       102     +       NCBI36  .       .       .       C/C     C/G     G/G

字段说明

  • rs#:变异标识符(如 rs 编号)
  • alleles:等位基因(如 A/T)
  • chrom:染色体编号
  • pos:变异位置
  • strand:链方向(+ 或 -)
  • assembly#:基因组组装版本
  • center:测序中心
  • protLSIDassayLSID:实验信息
  • Sample1Sample2Sample3:样本的基因型

3. PED(Pedigree)格式

特点

  • 文本格式:用于存储基因型和家系信息。
  • 常与 MAP 文件一起使用:MAP 文件存储位点信息,PED 文件存储样本基因型。

示例(PED 文件)

FamilyID SampleID PatID   MatID   Sex     Phenotype      Marker1 Marker2
Fam1     Sample1  0       0       1       1       A/A     C/C
Fam1     Sample2  0       0       2       1       A/T     C/G
Fam1     Sample3  0       0       1       2       T/T     G/G

字段说明

  • FamilyID:家系编号
  • SampleID:样本编号
  • PatID:父亲编号
  • MatID:母亲编号
  • Sex:性别(1 为男性,2 为女性)
  • Phenotype:表型信息(1 为对照,2 为病例)
  • Marker1Marker2:位点的基因型

示例(MAP 文件)

chr1    Marker1  0       101
chr1    Marker2  0       102

字段说明

  • chr1:染色体编号
  • Marker1Marker2:位点名称
  • 0:未使用的字段
  • 101102:位点位置

4. BED(Binary PED)格式

特点

  • 二进制格式:存储效率高,适合大规模数据处理。
  • 与 PED 格式配套:由 PLINK 工具生成,常用于 GWAS 分析。

示例

BED 文件是二进制格式,无法直接查看,但可以通过 PLINK 工具生成和读取。例如:

# 将 PED 文件转换为 BED 格式
plink --file input --make-bed --out output

生成的文件包括:

  • output.bed:二进制基因型数据
  • output.bim:位点信息(类似于 MAP 文件)
  • output.fam:样本信息(类似于 PED 文件的前 6 列)

示例(BIM 文件)

chr1    Marker1  0       101     A       T
chr1    Marker2  0       102     C       G

字段说明

  • chr1:染色体编号
  • Marker1Marker2:位点名称
  • 0:未使用的字段
  • 101102:位点位置
  • ATCG:等位基因

示例(FAM 文件)

Fam1    Sample1  0       0       1       1
Fam1    Sample2  0       0       2       1
Fam1    Sample3  0       0       1       2

字段说明

  • Fam1:家系编号
  • Sample1Sample2Sample3:样本编号
  • 0:父亲编号
  • 0:母亲编号
  • 12:性别(1 为男性,2 为女性)
  • 12:表型信息(1 为对照,2 为病例)

2. 数据格式转换工具

在 GWAS 分析中,数据格式转换是常见的操作,主要使用以下工具:

2.1 TASSEL

TASSEL 是一个用于关联分析和群体遗传学研究的软件工具,支持多种基因型数据格式的导入和转换。其核心脚本 run_pipeline.pl 提供了强大的数据处理功能,例如:

  • VCF 到 HapMap
    run_pipeline.pl \
    -Xms1G -Xmx5G \
    -SortGenotypeFilePlugin \
    -inputFile demo.vcf \
    -outputFile demo.sort.vcf \
    -fileType VCF
    
    run_pipeline.pl \
    -Xms1G -Xmx5G \
    -importGuess demo.sort.vcf \
    -ExportPlugin \
    -format HapmapDiploid \
    -saveAs demo.hmp.txt
    
  • HapMap 到 VCF
    run_pipeline.pl \
    -Xms1G -Xmx5G \
    -SortGenotypeFilePlugin \
    -inputFile demo.hmp.txt \
    -outputFile demo.sort.hmp.txt \
    -fileType Hapmap
    
    run_pipeline.pl \
    -Xms1G -Xmx5G \
    -importGuess demo.sort.hmp.txt \
    -ExportPlugin \
    -format VCF \
    -saveAs demo.h2v.vcf
    
2.2 PLINK

PLINK 是一个广泛使用的全基因组关联研究工具,支持多种基因型数据格式的转换,例如:

  • VCF 到 PED
    plink \
    --vcf demo.vcf \
    --recode \
    --out demo \
    --set-missing-var-ids @:# --allow-extra-chr
    
  • PED 到 VCF
    plink \
    --file demo \
    --recode vcf-iid \
    --out demo.p2v \
    --set-missing-var-ids @:# --allow-extra-chr
    
  • VCF 到 BED
    plink \
    --vcf demo.vcf \
    --make-bed \
    --out demo \
    --set-missing-var-ids @:# --allow-extra-chr
    
  • BED 到 VCF
    plink \
    --bfile demo \
    --recode vcf \
    --out demo.b2v \
    --set-missing-var-ids @:# --allow-extra-chr
    

3. 转换文件类型的原因

在 GWAS 中,转换文件类型主要有以下几方面的原因:

  • 适配不同的分析工具:不同工具支持的文件格式不同,转换格式可以确保数据能够被特定工具正确读取和处理。
  • 优化数据处理效率:某些格式(如 BED)在存储和处理效率上更具优势,适合大规模数据处理。
  • 数据预处理和质控:某些工具在特定格式下提供更强大的预处理功能,转换格式可以方便地进行数据过滤和质控。
  • 满足特定分析方法的要求:不同的分析方法可能需要特定格式的数据,转换格式可以确保数据符合分析要求。

4. 总结

在 GWAS 分析中,数据格式转换是重要的预处理步骤。通过使用 TASSEL 和 PLINK 等工具,可以灵活地在不同格式之间转换数据,从而适配不同的分析工具、优化处理效率、进行数据预处理和质控,并满足特定分析方法的要求。


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值