PED/MAP/VCF文件与PLINK-BED/BIM/FAM文件格式相互转换

PED/MAP/VCF文件与PLINK-BED/BIM/FAM文件格式相互转换

1. 主要文件格式简介

1.1 PED/MAP 格式

.ped文件:样本基因型数据

.map文件:SNP 位置信息

1.2 BED/BIM/FAM 格式

.bed文件:二进制基因型数据

.bim文件:SNP 信息

.fam文件:样本信息

2. PLINK过滤参数

2.1 过滤低质量位点

(1)位点缺失率 (–geno): 过滤掉缺失率过高的位点,低深度数据中,位点缺失率较高,适当放宽

阈值以保留更多位点,建议值:–geno 0.1(过滤掉缺失率 >10% 的位点)。

(2)最小等位基因频率 (–maf):过滤掉低频变异位点,因为低频位点可能是测序错误,过滤后可

以提高数据质量,建议值:–maf 0.01(过滤掉最小等位基因频率 <1% 的位点)。

(3)哈迪-温伯格平衡 (–hwe):过滤掉偏离哈迪-温伯格平衡的位点,偏离平衡的位点可能是测序

错误或选择压力的结果,建议值:–hwe 1e-6(过滤掉显著偏离平衡的位点)。

2.2 过滤低质量样本

(1)个体缺失率 (–mind): 过滤掉缺失率过高的个体,低深度数据中,个体缺失率较高,适当放宽

阈值以保留更多样本,建议值:–mind 0.1(过滤掉缺失率 >10% 的个体)。

(2)性别一致性检查 (–check-sex): 检查样本性别与基因型数据的一致性,建议值:结合 –

check-ex 参数使用,手动检查并过滤不一致的样本。

2.3 其他过滤参数

(1)最小分型率 (–geno 和 --mind 结合): 综合过滤位点和个体的缺失率,建议值:根据数据质量

调整,例如 --geno 0.1 --mind 0.1。

(2)连锁不平衡过滤 (–indep-pairwise): 过滤掉高连锁不平衡的位点,适用于后续的 PCA 或关联

分析,建议值:–indep-pairwise 50 5 0.2(窗口大小 50 SNP,滑动步长 5 SNP,LD 阈值 0.2)。

3. VCF转换为PED+MAP

plink --vcf input.vcf --recode --out output

4. PED+MAP转换为BED+BIM+FAM

plink --file input --make-bed --out output

5. BED+BIM+FAM转换为PED+MAP

plink --bfile input --recode --out output

6. 23andMe 格式转换为 PED+MAP

plink --23file input.txt --recode --out output

7. VCF转换BED/BIM/FAM PLINK文件(无参数)

# output_prefix:输出文件前缀
# 压缩VCF
plink --vcf input.vcf.gz --make-bed --out output_prefix

# 未压缩VCF
plink --vcf input.vcf --make-bed --out output_prefix

8. VCF转换为BED/BIM/FAM PLINK文件(过滤参数)

生成output_prefix.fam, output_prefix.bim, output_prefix.bed 三个文件及分析日志log等文件。

plink --vcf input.vcf --make-bed --out output_prefix \
      --geno 0.1 \          # 过滤缺失率 >10% 的位点
      --mind 0.1 \          # 过滤缺失率 >10% 的个体
      --maf 0.01 \          # 过滤最小等位基因频率 <1% 的位点
      --hwe 1e-6 \          # 过滤偏离哈迪-温伯格平衡的位点
      --indep-pairwise 50 5 0.2  # 过滤高连锁不平衡的位点

bim文件:
bim文件内容

### Plink 工具的使用方法 Plink 是一款用于全基因组关联分析(GWAS)数据处理的强大工具。该软件支持多种文件格式,包括但不限于 PED/MAPVCF 文件,并提供了丰富的功能来操作这些遗传学数据。 #### 安装 Plink 为了能够顺利运行 Plink,在本地计算机上安装最新版本是非常重要的。可以从官方网站下载适合操作系统环境的二进制文件并按照官方指南完成设置过程[^1]。 #### 基本命令结构 大多数情况下,执行 Plink 的基本语法如下: ```bash plink --<input_format> <input_file> --out <output_prefix> ``` 这里 `<input_format>` 表示输入的数据集格式;`<input_file>` 则是要处理的具体文件名;而 `--out` 参数后面跟的是输出结果保存的位置前缀。 #### 数据过滤转换 对于 GWAS 中常见的质量控制步骤,可以利用以下几种常用选项来进行样本或位点的选择和排除: - 使用 `--maf` 来指定最小等位基因频率阈值; - 应用 `--geno` 设置缺失率上限; - 添加 `--mind` 控制个体水平上的缺省比例; - 转换不同类型的文件之间相互转化如通过 `--recode vcf` 将 ped/map 文件转成vcf格式。 #### 关联统计测试 当准备就绪之后,可以通过下面这样的指令启动单核苷酸多态性(SNP)-表型之间的关系检测: ```bash plink --bfile data --assoc --adjust --out results/association_study ``` 这条语句将会基于给定的二进制 PLINK (.bed/.bim/.fam) 输入文件计算每个 SNP 位置处是否存在显著性的联系,并调整 p-value 后存储至指定目录下。 #### 结果解释 最终得到的结果通常包含原始 P-values 及经过多重检验校正后的 q-values 等信息。研究人员可以根据这些数值判断哪些 SNPs 更有可能成为潜在的功能变异候选者参后续的研究工作之中。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

生信与基因组学

每一份鼓励是我坚持下去动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值