Bowtie2的简单使用笔记

简介

Bowtie 2是一个超快的、内存效率高的工具,用于将测序读数与长参考序列进行比对。它特别擅长将大约50个到100个或1000个字符的读数进行比对,尤其擅长与相对较长的(如哺乳动物)基因组比对。Bowtie 2用FM索引对基因组进行索引,以保持其内存占用小:对于人类基因组,其内存占用通常约为3.2GB。Bowtie 2支持间隙式、局部式和成对端对齐模式。

其中FM index就是就是一个BWT[T],一个checkpoint data,一个简化了的SA(具体参考bowtie里的FM-index简介_stormlovetao的博客-CSDN博客

如果目的是对齐两个非常大的序列(例如两个基因组),请考虑使用MUMmer。如果目的是与相对较短的参考序列(如细菌基因组)非常灵敏的比对,可以使用Bowtie 2完成,但您可能需要考虑使用NUCmerBLATBLAST等工具。当参考基因组很长时,这些工具可能会非常缓慢,但当参考基因组很短时通常就足够了。

使用

  1. 构建index
    官方index:

    wget ftp://ftp.ccb.jhu.edu/pub/data/bowtie2_indexes/mm10.zip
    unzip mm10.zip
    rm mm10.zip make_mm10.sh
    

    自建index:

    wget  --.fna
    bowtie2-build --.fna index
    
  2. 比对

     bowtie2 [options]* -x <index> {-1 <m1> -2 <m2> | -U <r> | --interleaved <i> | -b <bam>} [-S <sam>]
    

    其中参数:

    -x  由bowtie2-build所生成的索引文件的前缀,需要指定路径及其共用文件名
    -1  使用trimmomatic质控后与read2配对(paired)的read1。可以为多个文件,并用逗号分开;多个文件必须和 -2 <m2> 中制定的文件一一对应。
    -2  使用trimmomatic质控后与read1配对的read2
    -U  使用trimmomatic质控后未配对(unpaired)的reads。可以为多个文件,并用逗号分开,测序文件中的reads的长度可以不一样。
    -S  所生成的SAM格式的文件前缀。默认是输入到标准输出。
    
    #事例:
    #单末端
    bowtie2 -x insect -U input.fq 
    #双末端
    bowtie2 -x insect -1 input_1.fq -2 input_2.fq 
    
  3. SAM 文件转为 BAM 文件

     $ samtools sort example.sam > example.bam 
    
  • 0
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Bowtie2是一个用于快速、内存高效地将短读序列与哺乳动物大小的基因组进行比对的工具。它使用的是基于FM-index的索引结构,能够有效地处理长度为20-200个碱基的DNA序列。Bowtie2支持单端和双端的比对,以及局部和全局的比对模式。 使用Bowtie2进行比对的基本步骤如下: 1. 首先,需要有一个基因组序列,并且需要构建一个索引文件,这是使用Bowtie2之前必须完成的一步。构建索引的命令格式如下: ``` bowtie2-build <reference_in> <bt2_index_base> ``` 其中 `<reference_in>` 是基因组的FASTA格式文件,而 `<bt2_index_base>` 是输出的索引文件的前缀名。 2. 构建索引后,就可以使用Bowtie2将序列读取与索引的基因组进行比对了。比对的基本命令格式如下: ``` bowtie2 -U <reads> -S <output_sam_file> ``` 在这里,`<bt2_index_base>` 是之前构建索引时指定的文件前缀,`<reads>` 是包含测序读数的文件,通常为FASTQ格式。`<output_sam_file>` 是比对结果的输出文件,通常输出为SAM格式,但是Bowtie2也能输出BAM格式。 3. 为了优化比对过程,Bowtie2提供许多参数来自定义比对条件,例如,可以选择是否报告多于一个最佳的比对位置、允许的最大gap大小等。 4. 比对完成后,通常需要将SAM格式的文件转换为更为紧凑的BAM格式,并进行排序。这可以通过Samtools来完成: ``` samtools view -Sb <output_sam_file> > <output_bam_file> samtools sort <output_bam_file> -o <sorted_output_bam_file> ``` 以上就是使用Bowtie2进行基因组序列比对的基本步骤。需要注意的是,具体使用时可能需要根据数据和研究目的调整参数,以获得最佳的比对结果。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值