一、bed文件介绍
bed文件是一种记录基因组不同(功能)区域在基因组上的位置以及其它注释信息的文本文件。它包含了由空格或者tab分隔的不同列,以记录不同的信息,每一行对应一个区域。它最早出现于人类基因组计划中,后被广泛应用。因为它不直接在基因组上进行标记和修改,在使用上更具效率。
bed文件最开始并没有一个标准的格式,因此 UCSC Genome Browser 对它的描述逐渐成为了大家的参考标准。它最少为3列,最多可为12列。bed文件辅助 UCSC Genome Browser 对不同片段进行可视化展示,因此第三行以后的信息多和如何展示这一区域有关,我就不在这里赘述了。以下是前三行的内容
-
chrom:染色体或者scaffold的名字;
-
chromStart:在染色体或者scaffold上的起始位置(包含起始位置对应的碱基对),如果是染色体的话,第一个碱基对的位置被标记为0;
-
chromEnd:在染色体或者scaffold上的终止位置(该终止位置的碱基对不被包含在内);
* scaffold:我们在二代测序中,获得的片段是reads,由reads组装成的为contigs,而contigs进一步组装,就能得到scaffold。
一个最简单的bed文件如下图所示: