plink文件格式介绍自用笔记

gwas:基因组关联分析

  1. ped + map文件
  2. bed + bim + fam文件

ped + map文件

做基因分析主要用ped文件即可,map包含了ped中基因型的所有位置信息,该组数据方便人的阅读,但是在机器分析中运算速度低,不便于计算机使用

ped文件

主要包括SNP的信息, 包括个体ID, 系谱信息, 表型和SNP的分型信息

家族ID 个人ID 父亲ID 母亲ID 性别 表型 基因型1(第一列) 基因型1(第二列) 基因型2(第一列) 基因型2(第二列)...

前六列格式:

Family ID ('FID') #如果没有, 可以用个体ID代替
Individual ID ('IID'; cannot be '0')
Individual ID of father ('0' if father isn't in dataset)
Individual ID of mother ('0' if mother isn't in dataset)
Sex code ('1' = male, '2' = female, '0' = unknown)
Phenotype value ('1' = control, '2' = case, '-9'/'0'/non-numeric = missing data if case/control)
# (‘1’ = 对照, ‘2’ = 病例, ‘-9’/‘0’/表示表型缺失)

示例: 

FAM1	NA06985	0	0	1	1	A	T	T	T	G	G	C	C	A	T	T	T	G	G	C	C
FAM1	NA06991	0	0	1	1	C	T	T	T	G	G	C	C	C	T	T	T	G	G	C	C
0	NA06993	0	0	1	1	C	T	T	T	G	G	C	T	C	T	T	T	G	G	C	T
0	NA06994	0	0	1	1	C	T	T	T	G	G	C	C	C	T	T	T	G	G	C	C
0	NA07000	0	0	2	1	C	T	T	T	G	G	C	T	C	T	T	T	G	G	C	T
0	NA07019	0	0	1	1	C	T	T	T	G	G	C	C	C	T	T	T	G	G	C	C
0	NA07022	0	0	2	1	C	T	T	T	G	G	0	0	C	T	T	T	G	G	0	0
0	NA07029	0	0	1	1	C	T	T	T	G	G	C	C	C	T	T	T	G	G	C	C
FAM2	NA07056	0	0	0	2	C	T	T	T	A	G	C	T	C	T	T	T	A	G	C	T
FAM2	NA07345	0	0	1	1	C	T	T	T	G	G	C	C	C	T	T	T	G	G	C	C

 

map文件

主要是图谱文件信息, 主要包括染色体名称, 所在的染色体和所在染色体的坐标

染色体号 snp标识 基因距离(遗传距离) 碱基距离(物理位置)

遗传距离通常没有,可以使用0代替,也可以使用-9,-9在Plink中代表缺失。

格式:

第一列:染色体编号(1-22, X, Y or 0 if unplaced), 未知为0;
第二列:SNP名称(字符或数字), 如果不重要, 可以从1编号, 注意要和bed文件SNP列一一对应;常见的SNP可以采用以“rs”开头的编号
第三列:染色体的摩尔位置(可选项, 可以用0);
第四列:SNP物理坐标;

示例:

## 人类数据
21	rs11511647	0	26765
X	rs3883674	0	32380
X	rs12218882	0	48172
9	rs10904045	0	48426
9	rs10751931	0	49949
8	rs11252127	0	52087
10	rs12775203	0	52277
8	rs12255619	0	52481

## 玉米数据
1       chr1.s_7111     -9      7111
1       chr1.s_7140     -9      7140
1       chr1.s_7141     -9      7141
1       chr1.s_21184    -9      21184
1       chr1.s_21632    -9      21632
1       chr1.s_23154    -9      23154
1       chr1.s_23578    -9      23578

 

bed + bim + fam文件 

bed文件:二进制文件

bim文件:

存储每个遗传变异(通常是SNP)的相关信息,每一行代表一个遗传变异,共6列:

染色体号 snp标识 基因距离(遗传距离) 碱基距离(物理位置) 次要等位基因 主要等位基因

格式:

第一列:染色体编号(1-22, X, Y or 0 if unplaced), 未知为0;
第二列:SNP名称(字符或数字), 如果不重要, 可以从1编号, 注意要和bed文件SNP列一一对应;常见的SNP可以采用以“rs”开头的编号
第三列:染色体的摩尔位置(可选项, 可以用0);
第四列:SNP物理坐标;
第五列:等位基因1(A1),通常是次要等位基因(minor allele);
第六列:等位基因2(A2),通常是主要等位基因(major allele)。

示例:

1       chr1.s_7111     -9      7111    T       C
1       chr1.s_7140     -9      7140    T       C
1       chr1.s_7141     -9      7141    T       C
1       chr1.s_21184    -9      21184   C       A

 fam(family)文件:

家族ID 个人ID 父亲ID 母亲ID 性别 表型

格式:

Family ID ('FID')
Individual ID ('IID'; cannot be '0')
Individual ID of father ('0' if father isn't in dataset)
Individual ID of mother ('0' if mother isn't in dataset)
Sex code ('1' = male, '2' = female, '0' = unknown)
Phenotype value ('1' = control, '2' = case, '-9'/'0'/non-numeric = missing data if case/control) 
# (‘1’ = 对照, ‘2’ = 病例, ‘-9’/‘0’/表示表型缺失)

示例:

-9 MG_1086_X_MG_1542 -9 -9 0 -9
-9 MG_682_X_MG_1542 -9 -9 0 -9
-9 MG_442_X_MG_1542 -9 -9 0 -9
-9 MG_930_X_MG_1542 -9 -9 0 -9

参考:

【精选】plink格式文件的介绍及相互转换_plink转换格式_hucy_Bioinfo的博客-CSDN博客 

还有其他的记不住了 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值