BWA-backtrack: 是用来比对 Illumina 的序列的,reads 长度最长能到 100bp。 BWA-SW: 用于比对 long-read ,支持的长度为 70bp-1Mbp;同时支持剪接性比对。 BWA-MEM: 都支持较长的read长度,同时都支持剪接性比对(split alignments),但是BWA-MEM是更新的算法,也更快,更准确,且 BWA-MEM 对于 70bp-100bp 的 Illumina 数据来说,效果也更好些。
BWA使用详解 - jellywu的文章 - 知乎 https://zhuanlan.zhihu.com/p/342250758
1.构建索引
下载参考基因组序列fasta文件,注意版本信息和物种
#根据fasta文件--构建索引
index Usage:bwa index [ –p prefix ] [ –a algoType ] <in.db.fasta>
Index database sequence in the FASTA format.
OPTIONS:
-P STR 输出数据库的前缀;【默认和输入的文件名一致,输出的数据库在其输入文件所在的文件夹,并以该文件名为前缀。】
-a [is|bwtsw] 构建index的算法,有两个算法:
is 是默认的算法,虽然相对较快,但是需要较大的内存,当构建的数据库大于2GB的时候就不能正常工作了。
bwtsw 对于短的参考序列式不工作的,必须要大于等于10MB, 但能用于较大的基因组数据,比如人的全基因组。
根据reference genome data(e.g. ref.fa) 建立 Index File例子:
$ bwa index ref.fa -p genome
###可以不加-p genome,这样建立索引都是以ref.fa为前缀,以下使用的示例均未使用-p genome##