plink文件格式介绍自用笔记

小趴菜日记

已于 2023-11-19 19:31:04 修改

阅读量222

点赞数

文章标签：学习笔记

于 2023-11-03 21:22:19 首次发布

本文链接：https://blog.csdn.net/qq_55736201/article/details/134211069

版权

gwas：基因组关联分析

ped + map文件
bed + bim + fam文件

ped + map文件

做基因分析主要用ped文件即可，map包含了ped中基因型的所有位置信息，该组数据方便人的阅读，但是在机器分析中运算速度低，不便于计算机使用

ped文件：

主要包括SNP的信息, 包括个体ID, 系谱信息, 表型和SNP的分型信息

家族ID 个人ID 父亲ID 母亲ID 性别表型基因型1(第一列) 基因型1(第二列) 基因型2(第一列) 基因型2(第二列)...

前六列格式：

Family ID ('FID') #如果没有, 可以用个体ID代替
Individual ID ('IID'; cannot be '0')
Individual ID of father ('0' if father isn't in dataset)
Individual ID of mother ('0' if mother isn't in dataset)
Sex code ('1' = male, '2' = female, '0' = unknown)
Phenotype value ('1' = control, '2' = case, '-9'/'0'/non-numeric = missing data if case/control)
# (‘1’ = 对照, ‘2’ = 病例, ‘-9’/‘0’/表示表型缺失)

示例：

FAM1	NA06985	0	0	1	1	A	T	T	T	G	G	C	C	A	T	T	T	G	G	C	C
FAM1	NA06991	0	0	1	1	C	T	T	T	G	G	C	C	C	T	T	T	G	G	C	C
0	NA06993	0	0	1	1	C	T	T	T	G	G	C	T	C	T	T	T	G	G	C	T
0	NA06994	0	0	1	1	C	T	T	T	G	G	C	C	C	T	T	T	G	G	C	C
0	NA07000	0	0	2	1	C	T	T	T	G	G	C	T	C	T	T	T	G	G	C	T
0	NA07019	0	0	1	1	C	T	T	T	G	G	C	C	C	T	T	T	G	G	C	C
0	NA07022	0	0	2	1	C	T	T	T	G	G	0	0	C	T	T	T	G	G	0	0
0	NA07029	0	0	1	1	C	T	T	T	G	G	C	C	C	T	T	T	G	G	C	C
FAM2	NA07056	0	0	0	2	C	T	T	T	A	G	C	T	C	T	T	T	A	G	C	T
FAM2	NA07345	0	0	1	1	C	T	T	T	G	G	C	C	C	T	T	T	G	G	C	C

map文件：

主要是图谱文件信息, 主要包括染色体名称, 所在的染色体和所在染色体的坐标

染色体号 snp标识基因距离(遗传距离) 碱基距离(物理位置)

遗传距离通常没有，可以使用0代替，也可以使用-9，-9在Plink中代表缺失。

格式：

第一列：染色体编号（1-22, X, Y or 0 if unplaced）, 未知为0；
第二列：SNP名称（字符或数字）, 如果不重要, 可以从1编号, 注意要和bed文件SNP列一一对应；常见的SNP可以采用以“rs”开头的编号
第三列：染色体的摩尔位置(可选项, 可以用0)；
第四列：SNP物理坐标；

示例：

## 人类数据
21	rs11511647	0	26765
X	rs3883674	0	32380
X	rs12218882	0	48172
9	rs10904045	0	48426
9	rs10751931	0	49949
8	rs11252127	0	52087
10	rs12775203	0	52277
8	rs12255619	0	52481

## 玉米数据
1       chr1.s_7111     -9      7111
1       chr1.s_7140     -9      7140
1       chr1.s_7141     -9      7141
1       chr1.s_21184    -9      21184
1       chr1.s_21632    -9      21632
1       chr1.s_23154    -9      23154
1       chr1.s_23578    -9      23578

bed + bim + fam文件

bed文件：二进制文件

bim文件：

存储每个遗传变异（通常是SNP）的相关信息，每一行代表一个遗传变异，共6列：

染色体号 snp标识基因距离(遗传距离) 碱基距离(物理位置) 次要等位基因主要等位基因

格式：

第一列：染色体编号（1-22, X, Y or 0 if unplaced）, 未知为0；
第二列：SNP名称（字符或数字）, 如果不重要, 可以从1编号, 注意要和bed文件SNP列一一对应；常见的SNP可以采用以“rs”开头的编号
第三列：染色体的摩尔位置(可选项, 可以用0)；
第四列：SNP物理坐标；
第五列：等位基因1（A1），通常是次要等位基因（minor allele）；
第六列：等位基因2（A2），通常是主要等位基因（major allele）。

示例：

1       chr1.s_7111     -9      7111    T       C
1       chr1.s_7140     -9      7140    T       C
1       chr1.s_7141     -9      7141    T       C
1       chr1.s_21184    -9      21184   C       A

fam（family）文件：

家族ID 个人ID 父亲ID 母亲ID 性别表型

格式：

Family ID ('FID')
Individual ID ('IID'; cannot be '0')
Individual ID of father ('0' if father isn't in dataset)
Individual ID of mother ('0' if mother isn't in dataset)
Sex code ('1' = male, '2' = female, '0' = unknown)
Phenotype value ('1' = control, '2' = case, '-9'/'0'/non-numeric = missing data if case/control) 
# (‘1’ = 对照, ‘2’ = 病例, ‘-9’/‘0’/表示表型缺失)

示例：

-9 MG_1086_X_MG_1542 -9 -9 0 -9
-9 MG_682_X_MG_1542 -9 -9 0 -9
-9 MG_442_X_MG_1542 -9 -9 0 -9
-9 MG_930_X_MG_1542 -9 -9 0 -9

参考：

【精选】plink格式文件的介绍及相互转换_plink转换格式_hucy_Bioinfo的博客-CSDN博客

还有其他的记不住了

小趴菜日记

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
plink文件格式介绍自用笔记

做基因分析主要用ped文件即可，map包含了ped中基因型的所有位置信息，该组数据方便人的阅读，但是在机器分析中运算速度低，不便于计算机使用。家族ID 个人ID 父亲ID 母亲ID 性别表型基因型1(第一列) 基因型1(第二列) 基因型2(第一列) 基因型2(第二列)...染色体号 snp标识基因距离(遗传距离) 碱基距离(物理位置) 次要等位基因主要等位基因。染色体号 snp标识基因距离(遗传距离) 碱基距离(物理位置)gwas：基因组关联分析。
复制链接

扫一扫