- BWA下载安装
$ wget https://sourceforge.net/projects/bio-bwa/files/bwa-0.7.17.tar.bz2 $ tar xvfj bwa-0.7.17.tar.bz2 $ cd bwa-0.7.17 $ make $./bwa
- BWA简单比对
# 建立索引 # 建立索引可以通过子命令调用两种算法 # -is IS线性时间算法,无法处理2GB以上文件 # -Bwtsw BWT-SW中使用的算法,对于短的参考序列不工作,必须大于10Mb $ bwa index ref.fa # aln 算法 # 建立 .sai 文件 寻找 SA corrdinates # pair-end 两个文件分别处理;single-end 直接处理 -t 多线程 $ bwa aln ref.fa read.fq > aln_sa.sai # 单末端测序结果比对 $ bwa samse ref.fa aln_sa.sai read.fq > aln_se.sam # 双末端测序结果比対 $ bwa sampe ref.fa aln_sa1.sai aln_sa2.sai read1.fq read2.fq > aln_pe.sam # mem 算法 $ bwa mem ref.fa reads.fq > mem_se.sam $ bwa mem ref.fa read1.fq read2.fq > mem_pe.sam
- BWA 参数说明
# 建立索引 -o int:允许出现的最大gap数。 -e int:每个gap允许的最大长度。 -d int:不允许在3’端出现大于多少bp的deletion。 -i int:不允许在reads两端出现大于多少bp的indel。 -l int:Read前多少个碱基作为seed,如果设置的seed大于read长度,将无法继续,最好设置在25-35,与-k 2 配合使用。 -k int:在seed中的最大编辑距离,使用默认2,与-l配合使用。 -t int:要使用的线程数。 -R int:此参数只应用于pair end中,当没有出现大于此值的最佳比对结果时,将会降低标准再次进行比对。增加这个值可以提高配对比对的准确率,但是同时会消耗更长的时间,默认是32。 -I int:表示输入的文件格式为Illumina 1.3+数据格式。 -B int:设置标记序列。从5’端开始多少个碱基作为标记序列,当-B为正值时,在比对之前会将每个read的标记序列剪切,并将此标记序列表示在BC SAM 标签里,对于pair end数据,两端的标记序列会被连接。 -b :指定输入格式为bam格式。
- Bowtie下载安装
$ wget https://sourceforge.net/projects/bowtie-bio/files/bowtie2/2.2.9/bowtie2-2.2.9-linux-x86_64.zip/download $ unzip bowtie2-2.2.9-linux-x86_64.zip $ cd bowtie2-2.2.9 $ make $ ./bowtie
- Bowtie 简单比对
# 建立索引 red_bowtie 为索引前缀 $ bowtie2-build ref.fa output_dir/ref_bowtie # 单末端测序结果序列比对 $ bowtie2 ref_bowtie read.fastq -S result.sam # 双末端测序结果序列比对 $ bowtie2 -x ref_bowtie -1 read1.fastq -2 read2.fastq -S result.sam