PED/MAP/VCF文件与PLINK-BED/BIM/FAM文件格式相互转换

生信与基因组学

于 2025-02-11 10:20:04 发布

阅读量1.1k

点赞数 15

分类专栏：遗传学文章标签：数据分析数据挖掘 bash

本文链接：https://blog.csdn.net/LittleComputerRobot/article/details/145563659

版权

遗传学专栏收录该内容

2 篇文章

订阅专栏

PED/MAP/VCF文件与PLINK-BED/BIM/FAM文件格式相互转换

1. 主要文件格式简介

1.1 PED/MAP 格式

.ped文件：样本基因型数据

.map文件：SNP 位置信息

1.2 BED/BIM/FAM 格式

.bed文件：二进制基因型数据

.bim文件：SNP 信息

.fam文件：样本信息

2. PLINK过滤参数

2.1 过滤低质量位点

（1）位点缺失率 (–geno)：过滤掉缺失率过高的位点，低深度数据中，位点缺失率较高，适当放宽

阈值以保留更多位点，建议值：–geno 0.1（过滤掉缺失率 >10% 的位点）。

（2）最小等位基因频率 (–maf)：过滤掉低频变异位点，因为低频位点可能是测序错误，过滤后可

以提高数据质量，建议值：–maf 0.01（过滤掉最小等位基因频率 <1% 的位点）。

（3）哈迪-温伯格平衡 (–hwe)：过滤掉偏离哈迪-温伯格平衡的位点，偏离平衡的位点可能是测序

错误或选择压力的结果，建议值：–hwe 1e-6（过滤掉显著偏离平衡的位点）。

2.2 过滤低质量样本

（1）个体缺失率 (–mind)： 过滤掉缺失率过高的个体，低深度数据中，个体缺失率较高，适当放宽

阈值以保留更多样本，建议值：–mind 0.1（过滤掉缺失率 >10% 的个体）。

（2）性别一致性检查 (–check-sex)： 检查样本性别与基因型数据的一致性，建议值：结合 –

check-ex 参数使用，手动检查并过滤不一致的样本。

2.3 其他过滤参数

（1）最小分型率 (–geno 和 --mind 结合)： 综合过滤位点和个体的缺失率，建议值：根据数据质量

调整，例如 --geno 0.1 --mind 0.1。

（2）连锁不平衡过滤 (–indep-pairwise)： 过滤掉高连锁不平衡的位点，适用于后续的 PCA 或关联

分析，建议值：–indep-pairwise 50 5 0.2（窗口大小 50 SNP，滑动步长 5 SNP，LD 阈值 0.2）。

3. VCF转换为PED+MAP

plink --vcf input.vcf --recode --out output

4. PED+MAP转换为BED+BIM+FAM

plink --file input --make-bed --out output

5. BED+BIM+FAM转换为PED+MAP

plink --bfile input --recode --out output

6. 23andMe 格式转换为 PED+MAP

plink --23file input.txt --recode --out output

7. VCF转换BED/BIM/FAM PLINK文件（无参数）

# output_prefix：输出文件前缀
# 压缩VCF
plink --vcf input.vcf.gz --make-bed --out output_prefix

# 未压缩VCF
plink --vcf input.vcf --make-bed --out output_prefix

8. VCF转换为BED/BIM/FAM PLINK文件（过滤参数）

生成output_prefix.fam, output_prefix.bim, output_prefix.bed 三个文件及分析日志log等文件。

plink --vcf input.vcf --make-bed --out output_prefix \
      --geno 0.1 \          # 过滤缺失率 >10% 的位点
      --mind 0.1 \          # 过滤缺失率 >10% 的个体
      --maf 0.01 \          # 过滤最小等位基因频率 <1% 的位点
      --hwe 1e-6 \          # 过滤偏离哈迪-温伯格平衡的位点
      --indep-pairwise 50 5 0.2  # 过滤高连锁不平衡的位点