PLINK-GWAS学习1------了解数据格式

爱刷短视频的大朋友

已于 2022-08-31 18:06:04 修改

阅读量1.3k

点赞数

分类专栏： GWAS-GS学习笔记文章标签：学习

于 2022-08-18 19:40:19 首次发布

本文链接：https://blog.csdn.net/sweet_yemen/article/details/126411012

版权

GWAS-GS学习笔记专栏收录该内容

9 篇文章 17 订阅

订阅专栏

前言
这个文章是学习与踩坑记录，包括一些处理流程以及遇到的坑的解决方法。原贴推荐看飞哥的b站或者微信公众号@数据分析之放飞自我。
数据准备
这个练习数据原教程中放的是github网站的链接，但是这个网站的链接实在太难下载了，所以本次的练习数据时国内的gitee上(https://gitee.com/dashboard)的搜GWA_tutorial后的链接下载即可。
在这里插入图片描述终极原教程链接(https://onlinelibrary.wiley.com/doi/full/10.1002/mpr.1608)
主要的处理文件在1_QC_gwas文件夹中

其中，用于plink的主要数据包括这三个二进制文件.bed（包含ID和基因型） .bim（个体信息） .fam（遗传标记）文件，plink可以处理二进制的文件格式也可以处理文本形式的文件格式，但二进制格式的文件会极大的节省内存占用以及软件的处理时间。

这是这些文件的详细说明
![生成了四个文件，test.ped](https://img-blog.csdnimg.cn/15e884978b1b4b1dbdbba425c796d16d.png
想要查看这三个文件，需要使用plink的–recode命令转换为文本格式。

#--bfile表示输入的文件的是二进制文件，后面跟这三个文件的统一文件名。
#--recode表示对二进制文件进行转换。
#--out表示生成以test为文件名的输出文件。
plink --bfile HapMap_3_r3_1 --recode --out test

最后结果

生成的四个文件中，test.hh目前不清楚是什么，test.log是软件的处理日志，而test.map、test.ped的文件是需要重要理解的文件，因为我们自己分析的时候就需要准备.ped文件。具体的文件格式可以参考下面这个文件格式说明。
在这里插入图片描述
明确的格式说明可以参照官方说明（https://www.cog-genomics.org/plink/1.9/formats#ped）
.ped文件的第一列是家系ID（可以和个体ID一样），第二列是个体ID，第三列是父亲ID，第四列是母亲ID，第五列是性别（1公2母），第六列是个体的表型，第七列及以后都是每个位点对应的基因型。
.map文件的第一列是SNP的染色体号，第二列是SNP名，第三列是遗传距离（可以不填），第四列是SNP在染色体上的物理位置。可以说map文件就是ped文件的第七列以之后的表头（一一对应）

现在来看一下map文件和pad文件包含了多少个个体以及多少个位点。

#wc -l 是统计目标文件的行数
wc -l test.map test.ped

在这里插入图片描述
这就说明总共有1,457,897个SNP，即1,457,897个基因型。有165个受试个体。

在了解数据信息之后，就可以进行数据质控了。

补充的一点知识点（边学边更新）
.ped数据格式总结
ped文件使用空格（空格或者tab）进行分隔：前六列信息如下：
在这里插入图片描述
第1-4列的各类ID号不能有#号，因为软件处理时#号之后的文字会被当做注释而被自动忽略。
第五列的性别：用1表示雄性，用2表示雌性，其它非字符均表示性别未知。
第六列的表型数据：（plink可以自动根据第六列的数值类型识别数量性状和质量性状）
对于病例-对照性状，默认情况下1表示未感染，2表示感染，0或9表示表型缺失，如果是使用的0/1表示的未感染/感染，则需要在输入文件是使用命令–1，即plink --file mydata --1，这样就只能用-9表示表型缺失（未知）。
对于数量性状，小数点一定得是“.”，不能是“,”。同样未知的表型也用-9表示，但是可以使用命令--missing-phenotype进行重设，例如：plink --file mydata --missing-phenotype 99