生物学习路的开始阶段,需要了解记录基因的相关文件,文件不了解,基因分析完全做不了,开始学习基因文件。
基因文件形式主要分类两大类:
- ped + map
- bed + bim + fam
第一组:
在第一组文件中,做基因分析主要用ped文件即可,其中包含了每个个体、个体亲本、表现型、基因型在内的所有信息,map包含了ped中基因型的所有位置信息,该组数据方便人的阅读,但是在机器分析中运算速度低,不便于计算机使用。
ped(pedigree)文件
FID | IID | PID | MID | Sex | P | rs1 | rs2 | rs3 |
1 | 1 | 0 | 0 | 2 | 1 | CT | AG | AA |
2 | 2 | 0 | 0 | 1 | 0 | CC | AA | AC |
Family ID | Individual ID | Paternal ID | Maternal ID | Sex | Phenotype | Genotypes | ... | ... |
家族ID | 个人ID | 父亲ID | 母亲ID | 性别 | 表型 | 基因型 |
map文件
chr | snp identifier | morgans | bp units |
染色体 | snp标识 | 基因距离 | 碱基距离 |
1 | rs1 | 0 | 1000 |
1 | rs3 | 0 | 1001 |
第二组:
该组文件主要是用于数据处理,bed文件是最大的文件,包含了最全的信息,计算机处理该文件速度较快,常用该组数据对基因数据进行分析。
bed文件:二进制文件,打开看不懂。
bim文件:
chr | snp identifier | 摩尔距离 | 物理距离 | 次要等位基因 | 主要等位基因 |
1 | rs1 | 0 | 1000 | 0 | c |
2 | rs3 | 0 | 1001 | G | A |
fam(family)文件:包括了家庭信息文件
FID | IID | PID | MID | Sex | P |
家族ID | 个人ID | 父亲ID | 母亲ID | 性别 | 表型 |
1 | 10000 | 0 | 0 | 1 | 1 |
1 | 10001 | 0 | 0 | 1 | 2 |
文件转换:
# ped/map 转换为 bed/bim/fam:
plink --file snp --make-bed --out snp_test
# bed/bim/fam 转换为 ped/map
plink --bfile snp_test --recode --out snp