用plink做GWAS(PCA、关联分析)并用R绘图

GWAS

主要是做质量控制、PCA分析和关联分析

一、观察初始数据

初始数据一般有不同格式的,最终都要转化为后缀为*.bed,*.bim 和 *.fam的三个文件,首先要学会如何看初始文件判断数据类型,判断好数据类型才能选择合适的关联分析方法。那么关于这三种文件可以看:初探PLINK文件格式(bed,bim,fam).
一般来说fam文件里会有表型信息,或者是单独一个pheno文件给出表型信息。如果是单独pheno文件的话,需要先查看文件,找到需要的表型。这里我以做HDL_High_density_lipoprotein__mmol_l_关联分析为例,表型数据由T_pheno文件单独提供。我们先来查看一下T_pheno文件:
T_pheno可以看出我们需要的表型HDL处于第四列,前两列是固定不变的FID和IID,实际表型从第三列数起,也就是说HDL是第二个表型,之后指明表型时可以用–mpheno 2或–pheno-name HDL_High_density_lipoprotein__mmol_l_ 两种参数指明。
同时,我们观察到表型数据是连续型,而非0和1这种二进制类型,所以我们选择用linear regression做关联分析。(binary trait主要用logistic regression,quantitive trait主要用linear regression,要先观察数据类型以免用错方法)

二、质量控制

过程参考了用plink做一套GWAS分析,选择了自己需要的方法。这里讲解一下很多人刚开始接触的时候不明白各种参数是做什么的,比如样本缺失率和位点缺失率的过滤为什么有–missing和–mind两种,他们之间的区别是:–missing是用来筛查有哪些样本和位点缺失了,输出文件是将有缺失的数据整合出来,提供给我们阅读。而–mind是用于对原始数据进行修改,将高于你设置的缺失率的数据删除,并不会告诉你删除了哪些数据,只会输出删除后的结果。所以我们一般用–missing查看缺失情况,用–mind来做具体删除过滤操作。(同理–freq和–maf)
我做的过程如下:

样本缺失率和位点缺失率过滤(产生.imiss和lmiss文件)

初始数据是example.bed、example.bim、example.fam、T_pheno。


                
  • 22
    点赞
  • 138
    收藏
    觉得还不错? 一键收藏
  • 11
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 11
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值