fastq
文件进行过滤和比对(
mapping
)
对于
Illumina
下机数据推荐使用
bwa
进行
mapping
。
Bwa
比对步骤大致如下:
(
1
)对参考基因组构建索引:
例子:
bwa index -a bwtsw hg19.fa
。最后生成文件:
hg19.fa.amb
、
hg19.fa.ann
、
hg19.fa.bwt
、
hg19.fa.pac
和
hg19.fa.sa
。
构建索引时需要注意的问题:
bwa
构建索引有两种算法,两种算法都是基于
BWT
的,这
两种算法通过参数
-a is
和
-a bwtsw
进行选择。其中
-a bwtsw
对于短的参考序列是不工作的,
必须要大于等于
10Mb
;
-a is
是默认参数,这个参数不适用于大的参考序列,必须要小于等于
2G
。
(
2
)寻找输入
reads
文件的
SA
坐标。
对于
pair end
数据,每个
reads
文件单独做运算,
single end
数据就不用说了,只有一
个文件。
例子:
pair end
:
bwa aln hg19.fa read1.fq.gz -l 30 -k 2 -t 4 -I > read1.fq.gz.sai
bwa aln hg19.fa read2.fq.gz -l 30 -k 2 -t 4 -I > read2.fq.gz.sai
single end
:
bwa aln hg19.fa read.fq.gz -l 30 -k 2 -t 4 -I > read.fq.gz.sai