bedtools不合格的使用介绍-CSDN博客

如何使用bedtools处理Rang数据

什么是Range数据

参考基因组表示的是一种坐标系统，比如说某一个物种基因组大小为100bp，那么他参考基因组就可以表示为[1,100], 之后就可以用任意[x,y]表示这条参考基因组上的位置，这就是一种范围信息，X-Y这段区域可能是外显子，也可能是内含子，可能是编码区，也可能是基因间区，也有可能是一个测序结果。

因此Range数据是生信数据比较常见的存放形式，比如说BED/BAM/BCF/和GFF/BFF/SAM/VCF/，前者以0为始，后者以1为始。

为了操作这种Range数据，Bioconductor在R语言中定义了两个重要的对象，IRange和GenomicRanges，后者仅存放'start','end','width'是后者的基础。后者才能真正存放基因组Range数据。

这一篇不介绍如何在R语言操作Range数据，而是介绍bedtools这款号称基因组Range数据分析的瑞士军当，当时的口号是一款取代10个生信分析师的工具。

Bedtools能够对基因组Range数据进行交，并，补，计数等简单操作，也能和Unix命令行结合起来完成更加复杂的任务。

bed格式简介

在正式介绍bedtools之前，需要先介绍一下BED格式。根据USCSC基因组浏览器的描述，BED格式能够非常简洁的表示基因组特征和注释，尽管BED格式描述中定义了12列，但是仅仅只有3列必须，因此BED格式按照列数继续细分为BED3,BED4,BED5,BED6,BED12。

BED12定义的12列分别为：chrom, start, end, name(BED代表的特征名),score(范围为0~1000，可以是pvalue, 或者是字符串,如"up"), strand(正负链), thickstart, thickednd(额外着色位置, 比如说表示外显子), itemRgb(RGB颜色,如255,0,0), blockCount(区块数量, 如外显子), blockSizes(由逗号隔开的区块大小), blockStarts(由逗号隔开的区块起始位点)。

知道了BED12后，就可以对BED的细分格式进行举例说明

BED3：chr1 11873 14409
BED4: chr1 11873 14409 uc001aaa.3
BED5: chr1 11873 14409 uc001aaa.3 0
BED6: chr1 11873 14409 uc001aaa.3 0 +
BED12: chr1 11873 14409 uc001aaa.3 0 + 11873 12000 123,123,123 3 354,109,1189, 0,739,1347,

img_94cba6af06ae9abe87e5847ad0fec7ce.jpe

BED12效果

除了官方的BED定义外，BEDtools定义了BEDPE用来表示基因组不连续的特征，比如说结构变异或者双端测序的reads。在定义中10列是必须的，为chrom11, start1, end1, chrom2, start2, end2, name, score, strand1, strand2。这之后可以增加任意多的其他列。

其他BEDtools支持的格式说明：