原文:http://blog.sina.com.cn/s/blog_80572f5d0102x5m7.html
genomic features通常使用Browser Extensible Data (BED) 或者 General Feature Format (GFF)文件表示,用UCSC Genome Browser进行可视化比较。
两种文件的区别在于,
BED文件中起始坐标为0,结束坐标至少是1,; GFF中起始坐标是1而结束坐标至少是1。
处理Bed格式和GFF格式的工具主要有 BedTools和Tophat 等等
BEDTools主要使用BED格式的前三列,BED可以最多有12列。BED格式的常用列描述如下:
- chrom: 染色体信息, 如chr1, III, myCHrom, contig1112.23, 必须有
- start: genome feature的起始位点,从0开始, 必须有
- end: genome feature的终止位点,至少为1, 必须有
- name: genome feature的官方名称或者自定义的一个名字
- score: 可以是p值等等一些可以刻量化的数值信息
- strands: 正反链信息
这些列的数据,也可以用在circos上,进行基因组信息可视化。
求两个bed文件中描述的基因组区段的重叠区域
intersectBed可以
用来求两个BED或者BAM文件中的overlap,overlap可以进行自定义是整个genome features的overlap还是局部。
bamToBed可以
用来把比对产生的bam文件转化为Bed文件,可以配合coverageBed命令使用。
参考
https://github.com/Population-Transcriptomics/pairedBamToBed12
在Bedtools 2.8版本中,
five bedtools -
intersect
,
coverage
,
genomecob
,
bamToBed
, and
bed12ToBed6
常用来处理bed文件
在Bedtools 2.16版本中,用的是
intersectBed,bamToBed,以及coverageBed,genomeCoverageBed命令
在Bedtools 2.26版本中,又用会原来的简短的命令了,比如intersect,coverage,genomecov等等,不过还是保留了genomeCoverageBed 的用法
参考:
https://media.readthedocs.org/pdf/bedtools/latest/bedtools.pdf
用coverage或coverageBed 计算覆盖度的时候,要提供两个bed文件。
参考:
http://bedtools.readthedocs.io/en/latest/content/example-usage.html
用genomecov或genomeCoverageBed的时候,要提供一个bam和一个基因组染色体或contigID 以及长度的信息
也可以用samtools pileup 或 samtools depth 获得测序深度
参考:
https://www.biostars.org/p/5165/
http://bedtools.readthedocs.io/en/latest/content/tools/genomecov.html
https://www.biostars.org/p/75207/
另外还有一个软件 qualimap可以做这些事
http://qualimap.bioinfo.cipf.es
参考文献:
Comparison of Custom Capture for Targeted Next-Generation DNA Sequencing