用plink做GWAS（PCA、关联分析）并用R绘图

最新推荐文章于 2024-06-11 11:28:56 发布

catable

最新推荐文章于 2024-06-11 11:28:56 发布

阅读量2.2w

点赞数 22

分类专栏：生信文章标签： linux r语言

本文链接：https://blog.csdn.net/qq_41954318/article/details/107859900

版权

用plink做GWAS（PCA、关联分析）并用R绘图

GWAS

GWAS

主要是做质量控制、PCA分析和关联分析

一、观察初始数据

初始数据一般有不同格式的，最终都要转化为后缀为*.bed，*.bim 和 *.fam的三个文件，首先要学会如何看初始文件判断数据类型，判断好数据类型才能选择合适的关联分析方法。那么关于这三种文件可以看：初探PLINK文件格式（bed，bim，fam）.
一般来说fam文件里会有表型信息，或者是单独一个pheno文件给出表型信息。如果是单独pheno文件的话，需要先查看文件，找到需要的表型。这里我以做HDL_High_density_lipoprotein__mmol_l_关联分析为例，表型数据由T_pheno文件单独提供。我们先来查看一下T_pheno文件：
T_pheno 可以看出我们需要的表型HDL处于第四列，前两列是固定不变的FID和IID，实际表型从第三列数起，也就是说HDL是第二个表型，之后指明表型时可以用–mpheno 2或–pheno-name HDL_High_density_lipoprotein__mmol_l_ 两种参数指明。
同时，我们观察到表型数据是连续型，而非0和1这种二进制类型，所以我们选择用linear regression做关联分析。（binary trait主要用logistic regression，quantitive trait主要用linear regression，要先观察数据类型以免用错方法）

二、质量控制

过程参考了用plink做一套GWAS分析，选择了自己需要的方法。这里讲解一下很多人刚开始接触的时候不明白各种参数是做什么的，比如样本缺失率和位点缺失率的过滤为什么有–missing和–mind两种，他们之间的区别是：–missing是用来筛查有哪些样本和位点缺失了，输出文件是将有缺失的数据整合出来，提供给我们阅读。而–mind是用于对原始数据进行修改，将高于你设置的缺失率的数据删除，并不会告诉你删除了哪些数据，只会输出删除后的结果。所以我们一般用–missing查看缺失情况，用–mind来做具体删除过滤操作。（同理–freq和–maf）
我做的过程如下：

样本缺失率和位点缺失率过滤（产生.imiss和lmiss文件）

初始数据是example.bed、example.bim、example.fam、T_pheno。

最低0.47元/天解锁文章

catable

关注

22
点赞
踩
138

收藏

觉得还不错? 一键收藏
11
评论
用plink做GWAS（PCA、关联分析）并用R绘图

用plink做GWAS（PCA、关联分析）并用R绘图plink一、观察初始数据质量控制样本缺失率和位点缺失率过滤（产生.imiss和lmiss文件）合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入plink主要是做质量控制、PCA分析和关
复制链接

扫一扫