Biobank genetic data探析(一)——Genotype results
1. 前言
我从零开始学习GWAS,对大多数文件以及其意义不是很明确,而UKBiobank数据量庞大,除开whole exome sequencing 数据外的genotype results以及imputation数据大小足足有12TB,一昧将所有的数据下载所花费的时间以及存储空间是我们希望避免的。
希望以Biobank genetic data探析系列系统记录下自己的学习结果和收获。
2. Genotype results
2.1 genotype call
文件大小共0.1TB。
Genotype calls内包含三类数据:.bed,.bim,.fam,这也是PLINK常见的文件输入格式。关于这些文件的描述在网上我们可以找到许多:初探PLINK文件格式(bed,bim,fam)以及PLINK官方文档:PLINK文档。
- bed:存储了每个样本的所有的variants的信息(是否显/隐性纯合、杂合、缺失)。
- bim:没有header,每一行依次包含如下信息: