Bedtools 是一个功能强大的工具集,用于在基因组范围内执行各种操作,例如重叠检测、合并、分割、过滤等。bedtools 会按照 0-based 的半开区间(half-open interval)表示基因组坐标,这与许多其他工具(如 bowtie2、BWA 等)的表示方式不同,后者通常使用 1-based 的闭区间(closed interval)。
BED 格式是一种常见的用于描述基因组特征的文本格式,它通常由四个列组成:
- 染色体名称(chromosome name)
- 起始位置(start position)
- 结束位置(end position)
- 可选的额外信息,如基因名称、得分等(optional additional information, such as gene name, score, etc.)
bedtools处理的bed文件(0-based 的半开区间)转换成 samtools等处理的基因组索引坐标,只需要起始坐标加1即可。
# $2 为起始位置
awk '{print $1,$2+1,$3,$4}' bedtools_treated.bed > samtools_treated.bed
awk '{print $1,$2-1,$3,$4}' samtools_treated.bed > bedtools_treated.bed