比对软件 - 专题

image

An illustration of relationships between alignment methods.

The applications / corresponding computational restrictions shown are (green) short pairwise alignment / detailed edit model;

(yellow) database search / divergent homology detection;

(red) whole genome alignment / alignment of long sequences with structural rearrangements;

and (blue) short read mapping / rapid alignment of massive numbers of short sequences. Although solely illustrative, methods with more similar data structures or algorithmic approaches are on closer branches.

The BLASR method combines data structures from short read alignment with optimization methods from whole genome alignment.

用过的比对软件不多,只知道简单的全局比对和局部比对算法,比对软件的原理基本是不知道的。

现在用过的比对软件:bwa、bowtie、blasr、SHRiMP、DALIGNER、MHAP、blast、blat、SOAP、Subread、NovoAlign、Maq

还有:MEGABLAST、Mummer、GMAP、STAR、DIAMOND、ELAND、RMAP、ZOOM、SeqMap、CloudBurst

慢慢积累,比较这些软件的不同,因为生物信息最底层的就是比对,测序拿到一堆序列,第一件要做得事情就是比对。

先看一篇好文:Aligner tutorial: GMAP, STAR, BLAT, and BLASR

常用的核酸序列比对到底有哪几种?

  1. 二代短reads比对到genome
  2. 三代长reads比对到genome
  3. 剪切体比对
  4. 二代reads与三代reads比
  5. genome之间比
  6. 多序列比对
  7. 数据库比对

BWA


Burrows-Wheeler Aligner

适用范围:二代测序数据快速比对到genome上

bwa作为序列比对界的模式软件,短小精悍,适用于多种场合,很有必要搞懂他内部的比对算法,最好也搞懂它是如何实现的。

Fast and accurate short read alignment with Burrows–Wheeler transform  - 2009  在线pdf    原文

lh3/bwa – Github    Burrow-Wheeler Aligner for pairwise alignment between DNA sequences

  1. BWA-backtrack:illumina reads比对,最长支持100bp(aln/samse/sampe
  2. BWA-SW:long-read比对,长度为70bp-1Mbp;支持剪切性比对(bwasw
  3. BWA-MEM:最新,最常用,同SW,但更准更快,与backtrack相比在70-100bp更具性能优势(mem

BWA方面主要有三篇学术论文:

  1. Li H. and Durbin R. (2009) Fast and accurate short read alignment with Burrows-Wheeler transform. Bioinformatics, 25, 1754-1760. [PMID: 19451168]. (if you use the BWA-backtrack algorithm)
  2. Li H. and Durbin R. (2010) Fast and accurate long-read alignment with Burrows-Wheeler transform. Bioinformatics, 26, 589-595. [PMID: 20080505]. (if you use the BWA-SW algorithm)
  3. Li H. (2013) Aligning sequence reads, clone sequences and assembly contigs with BWA-MEM. arXiv:1303.3997v2 [q-bio.GN]. (if you use the BWA-MEM algorithm or the fastmap command, or want to cite the whole BWA package)

BWA的设计思想

新一代测序技术中的短序列比对和组装算法 - 硕士论文

image

Program: bwa (alignment via Burrows-Wheeler transformation)
Version: 0.7.15-r1140
Contact: Heng Li <lh3@sanger.ac.uk>

Usage:   bwa <command> [options]

Command: index         index sequences in the FASTA format
         mem           BWA-MEM algorithm
         fastmap       identify super-maximal exact matches
         pemerge       merge overlapping paired ends (EXPERIMENTAL)
         aln           gapped/ungapped alignment
         samse         generate alignment (single ended)
         sampe         generate alignment (paired ended)
         bwasw         BWA-SW for long queries

         shm           manage indices in shared memory
         fa2pac        convert FASTA to PAC format
         pac2bwt       generate BWT from PAC
         pac2bwtgen    alternative algorithm for generating BWT
         bwtupdate     update .bwt to the new format
         bwt2sa        generate SA from BWT and Occ

Note: To use BWA, you need to first index the genome with `bwa index'.
      There are three alignment algorithms in BWA: `mem', `bwasw', and
      `aln/samse/sampe'. If you are not sure which to use, try `bwa mem'
      first. Please `man ./bwa.1' for the manual.

实用算法实现-第8篇 后缀树和后缀数组 [1简介]

bwa mem

bwa现在大家基本只用其mem比对算法了

还是单独开一片笔记吧

 

SOAPaligner/soap2

soap2 - 官方

SOAP系列的没有公布源码,都是二进制执行程序,所以免除了安装,同bwa一样,也是要先建索引再比对

SOAP不是很吃内存,把人的3G的基因组读到内存大概也就需要7G的内存,后面的比对都是不耗内存的。

./2bwt-builder ~/human_genome.fa
./soap –a <reads_a> -D <index.files> -o <output></output>
./soap –a <reads_a> -b <reads_b> -D <index.files> -o <PE_output> -2 <SE_output> -m <min_insert_size> -x <max_insert_size>

之前对SOAP一点印象都没有,但是不少同事都在用SOAP系列的软件。

主要是看了一个PPT,SOAP是有其比对上的优势的

imageimage

可以看出,SOAP对错误率的容忍较高,对indel的容忍也很好,这就是我现在需要的,可以尝试一下用SOAP将二代比对到三代上。Mapping.ppt

 

 

BLASR


Basic Local Alignment with Successive Refinement

Mapping single molecule sequencing reads using basic local alignment with successive refinement (BLASR): application and theory - BMC Bioinformatics

 

待续~

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
武汉派先科技有限公司推出的<>专业版是市场上最为强大便捷的Excel比较工具。它为工作中经常需要进行数据比较的用户提供了完美的解决方案。无论你的数据是存放在Excel文件,还是存放在文本文件,或者存放在Access、Microsoft SQL数据库,<>专业版都可以提供快速比较,大量节省您的时间和精力,将您从枯燥冗长的数据海洋中解放出来,从而让您的工作变得轻松愉快。 <>专业版不同于其它同类产品。其它同类产品在比较时候,要么是一个插件,要么需要显式地在前台运行Excel程序。而百分百比较Excel完全独立运行,与后台的Excel程序协同完成工作,不需要来回切换程序。 本产品的主要特性点: 1、 支持对任意Excel内容的比较 • 比较整个工作簿(workbook),并且可以对工作簿中的每个工作表进行单独的比较设置 • 比较整个工作表(worksheet),并允许多种比较设置 • 比较工作表中的已命名区域(named range),并允许多种比较设置 • 比较工作表中用户运行时自由选定的任何区域(range),并允许多种比较设置 2、 支持对远程数据的比较 • 支持从文本文件(Text/CSV)中导入数据比较 • 支持从Access数据库中导入数据比较 • 支持从微软SQL数据库中导入数据比较 3、支持灵活的多种比较设置 • 支持按第一行名字配对比较 • 支持按Excel所在列位置配对比较 • 支持按范围(range)内的单元坐标配对比较 (同一坐标的单元配对比较) • 支持用户自由定义的列映射配对比较 • 支持值和公式的比较 • 支持大小写区分 • 所有的比较设置均可保存供下次调用 4、自动生成XML格式的比较结果报表 • XML格式保留对差异单元的加亮显示 • XML格式使您的生意伙伴对比较结果的自动再处理(程序处理)成为可能 • XML格式允许没有安装微软Excel的生意伙伴用互联网浏览器进行显示比对 • XML格式也允许你在Excel中对比较结果进行显式和分析 5、原始Excel文件和比较结果显示在同一个程序窗口中,无需切换 6、可一键快速定位比较结果对应的原始Excel单元 7、独特的比较算法,即使大量的数据也可快速比较 8、友好的用户界面,让你的操作轻松自如.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值