PLINK-GWAS学习1------了解数据格式

前言
这个文章是学习与踩坑记录,包括一些处理流程以及遇到的坑的解决方法。原贴推荐看飞哥的b站或者微信公众号@数据分析之放飞自我。
数据准备
这个练习数据原教程中放的是github网站的链接,但是这个网站的链接实在太难下载了,所以本次的练习数据时国内的gitee上(https://gitee.com/dashboard)的搜GWA_tutorial后的链接下载即可。
在这里插入图片描述终极原教程链接(https://onlinelibrary.wiley.com/doi/full/10.1002/mpr.1608)
主要的处理文件在1_QC_gwas文件夹中
在这里插入图片描述
其中,用于plink的主要数据包括这三个二进制文件.bed(包含ID和基因型) .bim(个体信息) .fam(遗传标记)文件,plink可以处理二进制的文件格式也可以处理文本形式的文件格式,但二进制格式的文件会极大的节省内存占用以及软件的处理时间。

这是这些文件的详细说明
![生成了四个文件,test.ped](https://img-blog.csdnimg.cn/15e884978b1b4b1dbdbba425c796d16d.png
想要查看这三个文件,需要使用plink的–recode命令转换为文本格式。

#--bfile表示输入的文件的是二进制文件,后面跟这三个文件的统一文件名。
#--recode表示对二进制文件进行转换。
#--out表示生成以test为文件名的输出文件。
plink --bfile HapMap_3_r3_1 --recode --out test

最后结果
v
生成的四个文件中,test.hh目前不清楚是什么,test.log是软件的处理日志,而test.map、test.ped的文件是需要重要理解的文件,因为我们自己分析的时候就需要准备.ped文件。具体的文件格式可以参考下面这个文件格式说明。
在这里插入图片描述
明确的格式说明可以参照官方说明(https://www.cog-genomics.org/plink/1.9/formats#ped)
.ped文件的第一列是家系ID(可以和个体ID一样),第二列是个体ID,第三列是父亲ID,第四列是母亲ID,第五列是性别(1公2母),第六列是个体的表型,第七列及以后都是每个位点对应的基因型。
.map文件的第一列是SNP的染色体号,第二列是SNP名,第三列是遗传距离(可以不填),第四列是SNP在染色体上的物理位置。可以说map文件就是ped文件的第七列以之后的表头(一一对应)

现在来看一下map文件和pad文件包含了多少个个体以及多少个位点。

#wc -l 是统计目标文件的行数
wc -l test.map test.ped

在这里插入图片描述
这就说明总共有1,457,897个SNP,即1,457,897个基因型。有165个受试个体。

在了解数据信息之后,就可以进行数据质控了。

补充的一点知识点(边学边更新)
.ped数据格式总结
ped文件使用空格(空格或者tab)进行分隔 :前六列信息如下:
在这里插入图片描述
第1-4列的各类ID号不能有#号,因为软件处理时#号之后的文字会被当做注释而被自动忽略。
第五列的性别:用1表示雄性,用2表示雌性,其它非字符均表示性别未知。
第六列的表型数据:(plink可以自动根据第六列的数值类型识别数量性状和质量性状)
对于病例-对照性状,默认情况下1表示未感染,2表示感染,0或9表示表型缺失,如果是使用的0/1表示的未感染/感染,则需要在输入文件是使用命令–1,即plink --file mydata --1,这样就只能用-9表示表型缺失(未知)。
对于数量性状,小数点一定得是“.”,不能是“,”。同样未知的表型也用-9表示,但是可以使用命令--missing-phenotype进行重设,例如:plink --file mydata --missing-phenotype 99

  • 0
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值