plink在全基因组关联分析(GWAS)中主要有以下优势:
1)数据处理
2)质量控制的基本统计
3)群体分层分析
4)单位点的基本关联分析
5)亲缘关系矩阵
6)LD不平衡检验
7) 多点连锁分析
8) 单倍体关联分析
9)拷贝数变异分析
10) Meta分析等等。
所以plink软件是一个非常nice的运算软件,操作起来也很方便实用。好了废话不多说上干货。
1.plink下载网址:
https://www.cog-genomics.org/plink/
选择windows 64-bit版本,点击download 。然后利用xftp软件传输至xshell软件,解压安装并配置环境路径
2.常用命令(gwas)
--file 指定输入文件
--ped 指定ped文件
--map 指定MAP文件
--allow-extra-chr 允许其他染色体,比如scaffold
--make-bed 数据转换为二进制格式
--autosome-num 设置染色体数目
--freg 计算等位基因频率
--recode 12 :将次等位基因变为1,主等位基因变为2
--recode 01 :需结合--output-missing-genotype使用,将次等位基因变为0,主等位基因变为1,--output-missing-genotype作用是设定缺失基因型的代表字符。
--recode 将二进制文件(a.bim,b.bed,c.fam)转换为可读文件(d.ped,e,map)
--vcf 输入vcf文件
--out 指定输出文件名
将数据转换为二进制格式
plink --file 1 --make-bed --out 2
在数据分析之前,要对snp数据进行质控,这个步骤很关键,可以直接影响数据结果的有效性和准确性
plink --bfile 2 --maf 0.01 --geno 0.05 --mind 0.05 --hwe 0.001 --make-bed --out 3 ###这命令是对
利用质控后的数据进行以后的分析。
--bfile 输入二进制文件,由三个相互链接的文件组成,example.bim,example.bed、example.fam
--maf 次等位基因频率
--geno 基因型过滤
--mind 样本过滤
--hwe 哈迪温平衡
亲缘关系检测分析
plink --noweb --file 3 --genome --out 4 ### 3表示质控后正常格式的ped和map文件
输出:4.genome
近交系数分析
plink --noweb --file 3 --het --out 5
输出文件 :5.het
如果结果出现负值,并且值越小时,说明观察到的杂合子较多,可能出现样品污染或者异族通婚等。
3. 基础用法
2.1 plink转vcf格式为bed
$ ./plink --vcf root.hic.id.vcf --make-bed --out root.hic.id --allow-extra-chr
2.2 plink转vcf格式为ped
scaffold序列用vcftools转会丢失数据,所以选择plink1.9
输出结果为碱基ATCG
$ ./plink --vcf root.hic.id.vcf --allow-extra-chr --recode --out root.hic.id
当文件太大时,可以将结果输出为二进制文件
$ ./plink --vcf root.hic.id.vcf --allow-extra-chr --recode12 --out root12.hic.id --autosome-num 27
--autosome-num 设置染色体数目,plink默认输入数据是人类数据,当输入的染色体数目大于23条时,会出现报错,需要设置数目,这里按我做的物种设置为27。
将二进制文件转换为可读的文件集
plink --bfile hapmap-ceu --recode --out hapmap-ceu