一、基本操作
2020/05/06 更新
补充一下Plink相关的几种数据格式,见下图(图片来源忘记了,在整理文档时看到就插了进来)。
1、–bfile 、 --file 和 --tfile
读取文件
–bfile 读取二进制文件,bed、bim和fam格式
–file 读取文本文件,ped和map格式
使用以上两个命令时,文件命名要一致,如test.bed、test.bim、test.fam
二进制文件比较小,处理速度比较快
2、–out
指定输出文件的名称
3、–recode、 --make-bed 和 --transpose
格式转换
(1)PED/MAP 转换为TPED/TFAM格式:
plink --ped test.ped --map test.map --recode --transpose --out test1
或者
plink --file test --recode --transpose --out test1
(2)TPED/TFAM转化为PED/MAP文件:
plink --tped test1.tped --tfam test1.tfam --recode --out test2
或者
plink --tfile test1 --recode --out test2
(3)PED/MAP转为二进制格式
plink --file test --make-bed --out test3
(4)TFAM/TPED转为二进制格式
plink --tfile test1 --make-bed --out test3
(5)二进制格式转为TPED/TFAM:
plink --bfile test3 --recode --transpose --out test4
(6)二进制格式转为PED/MAP:
plink --bfile test3 --recode --out test
4、–keep 和 --remove
保留或删除指定的样本
keep为保留,remove为删除
(2020.12.08更新,附加一些说明)
下面这条命令中的sampleID.txt由两列构成,第一列为提取的样本Family ID,第二列为Within-family ID(IID)。
plink --bfile test --keep sample.txt --recode --make-bed --out sample
5、–extrac
保留指定的SNPs
(2020.12.08更新,附加一些说明)
下面这条命令中的snp.txt由一列构成,该列为SNP ID,每行为一个SNP位点。
plink --bfile test --extract snp.txt --make-bed --out snp
二、质量控制
1、–geno
2、–hwe
3、–maf
4、–mind
一行命令完成质量控制:
plink --bfile test --geno 005 --hwe 0.000001 --mad 0.5 --mind 0.1 --make-bed --out test_qc1
2020/05/06 更新
最近把质量控制部分又展开写了写,详细可参看
使用Plink对SNP数据进行质量控制
三、编码
1、–recode vcf
默认输出文件格式为vcf(废话)
输出文件每行是一个SNP,表示形式如 0/1,缺失为NA
2、–recode 12
默认输出文件格式为ped和map
输出文件每行是一个样本
A1编码为1,A2编码为2,两位代表一个SNP位点,强制使用 --missing-genotype来定义缺失基因的编码形式
3、–recode 23
默认输出文件格式暂时不知道,没使用过
因为需要配合其他命令使用
4、–recode AD 和 --recode A
默认输出文件格式为raw,R语言可读
使用0,1,2进行编码,AD还包含dominant项(het为1,其他为0),AD每个SNP编码为两位,A为一位
以上命令均基于Plink1.90。
附
(2020.12.08更新,增加链接一条)
上文中只介绍了Plink格式文件的相互转化,在基因组数据中还有一种很常见的文件格式——vcf,下面链接介绍了三种vcf格式转为Plink格式的方法,其中有一种方法是利用Plink命令来转。
http://www.360doc.com/content/19/1224/13/68068867_881784697.shtml
参考:
http://www.cog-genomics.org/plink2/