gwas:基因组关联分析
- ped + map文件
- bed + bim + fam文件
ped + map文件
做基因分析主要用ped文件即可,map包含了ped中基因型的所有位置信息,该组数据方便人的阅读,但是在机器分析中运算速度低,不便于计算机使用
ped文件:
主要包括SNP的信息, 包括个体ID, 系谱信息, 表型和SNP的分型信息
家族ID 个人ID 父亲ID 母亲ID 性别 表型 基因型1(第一列) 基因型1(第二列) 基因型2(第一列) 基因型2(第二列)...
前六列格式:
Family ID ('FID') #如果没有, 可以用个体ID代替
Individual ID ('IID'; cannot be '0')
Individual ID of father ('0' if father isn't in dataset)
Individual ID of mother ('0' if mother isn't in dataset)
Sex code ('1' = male, '2' = female, '0' = unknown)
Phenotype value ('1' = control, '2' = case, '-9'/'0'/non-numeric = missing data if case/control)
# (‘1’ = 对照, ‘2’ = 病例, ‘-9’/‘0’/表示表型缺失)
示例:
FAM1 NA06985 0 0 1 1 A T T T G G C C A T T T G G C C
FAM1 NA06991 0 0 1 1 C T T T G G C C C T T T G G C C
0 NA06993 0 0 1 1 C T T T G G C T C T T T G G C T
0 NA06994 0 0 1 1 C T T T G G C C C T T T G G C C
0 NA07000 0 0 2 1 C T T T G G C T C T T T G G C T
0 NA07019 0 0 1 1 C T T T G G C C C T T T G G C C
0 NA07022 0 0 2 1 C T T T G G 0 0 C T T T G G 0 0
0 NA07029 0 0 1 1 C T T T G G C C C T T T G G C C
FAM2 NA07056 0 0 0 2 C T T T A G C T C T T T A G C T
FAM2 NA07345 0 0 1 1 C T T T G G C C C T T T G G C C
map文件:
主要是图谱文件信息, 主要包括染色体名称, 所在的染色体和所在染色体的坐标
染色体号 snp标识 基因距离(遗传距离) 碱基距离(物理位置)
遗传距离通常没有,可以使用0代替,也可以使用-9,-9在Plink中代表缺失。
格式:
第一列:染色体编号(1-22, X, Y or 0 if unplaced), 未知为0;
第二列:SNP名称(字符或数字), 如果不重要, 可以从1编号, 注意要和bed文件SNP列一一对应;常见的SNP可以采用以“rs”开头的编号
第三列:染色体的摩尔位置(可选项, 可以用0);
第四列:SNP物理坐标;
示例:
## 人类数据
21 rs11511647 0 26765
X rs3883674 0 32380
X rs12218882 0 48172
9 rs10904045 0 48426
9 rs10751931 0 49949
8 rs11252127 0 52087
10 rs12775203 0 52277
8 rs12255619 0 52481
## 玉米数据
1 chr1.s_7111 -9 7111
1 chr1.s_7140 -9 7140
1 chr1.s_7141 -9 7141
1 chr1.s_21184 -9 21184
1 chr1.s_21632 -9 21632
1 chr1.s_23154 -9 23154
1 chr1.s_23578 -9 23578
bed + bim + fam文件
bed文件:二进制文件
bim文件:
存储每个遗传变异(通常是SNP)的相关信息,每一行代表一个遗传变异,共6列:
染色体号 snp标识 基因距离(遗传距离) 碱基距离(物理位置) 次要等位基因 主要等位基因
格式:
第一列:染色体编号(1-22, X, Y or 0 if unplaced), 未知为0;
第二列:SNP名称(字符或数字), 如果不重要, 可以从1编号, 注意要和bed文件SNP列一一对应;常见的SNP可以采用以“rs”开头的编号
第三列:染色体的摩尔位置(可选项, 可以用0);
第四列:SNP物理坐标;
第五列:等位基因1(A1),通常是次要等位基因(minor allele);
第六列:等位基因2(A2),通常是主要等位基因(major allele)。
示例:
1 chr1.s_7111 -9 7111 T C
1 chr1.s_7140 -9 7140 T C
1 chr1.s_7141 -9 7141 T C
1 chr1.s_21184 -9 21184 C A
fam(family)文件:
家族ID 个人ID 父亲ID 母亲ID 性别 表型
格式:
Family ID ('FID')
Individual ID ('IID'; cannot be '0')
Individual ID of father ('0' if father isn't in dataset)
Individual ID of mother ('0' if mother isn't in dataset)
Sex code ('1' = male, '2' = female, '0' = unknown)
Phenotype value ('1' = control, '2' = case, '-9'/'0'/non-numeric = missing data if case/control)
# (‘1’ = 对照, ‘2’ = 病例, ‘-9’/‘0’/表示表型缺失)
示例:
-9 MG_1086_X_MG_1542 -9 -9 0 -9
-9 MG_682_X_MG_1542 -9 -9 0 -9
-9 MG_442_X_MG_1542 -9 -9 0 -9
-9 MG_930_X_MG_1542 -9 -9 0 -9
参考:
【精选】plink格式文件的介绍及相互转换_plink转换格式_hucy_Bioinfo的博客-CSDN博客
还有其他的记不住了