短序列比对软件——bwa和bowtie2软件的安装与使用
写在前面
因使用的是老师提供的账号,无sudo权限,老师已将下列软件提前帮我们安装好了,故安装步骤只提供了代码无上机演示图片
序列文件为老师提前准备好的,直接复制过来使用的,但文中有给出如何自己获取序列文件
目录
1. bwa和bowtie2软件的安装
1.1. bwa的安装
- BWA,全称Burrows-Wheeler-Alignment Tool,是一种能够将差异度较小的序列比对到一个较大的参考基因组上的软件包。
- 它有三个不同的算法:
- BWA-backtrack: 是用来比对 Illumina 的序列的,适合短reads的比对,reads 长度最长能到 100bp。
- BWA-SW: 支持的长度为 70bp-1Mbp的reads;适用于alignment gap比较频繁的比对。
- BWA-MEM: 支持的长度为 70bp-1Mbp的reads;对大多数测序数据来说是优选算法。
- 参考链接:
- 软件官网:https://bio-bwa.sourceforge.net/
- manual: https://bio-bwa.sourceforge.net/bwa.shtml
安装
- 需要sudo权限
- 输入
sudo apt install bwa -y
1.2. bowtie2的安装
- bowtie2的官方manual:
https://bowtie-bio.sourceforge.net/index.shtml
https://bowtie-bio.sourceforge.net/bowtie2/manual.shtml
1.2.1. apt安装
- 需要sudo权限
- 输入
sudo apt install bowtie2 -y
1.2.2. conda安装
1.2.3. 预编译安装
- 进入想要安装到的目录
cd Biosofts/
- 下载Bowtie2的压缩包,并将其解压缩到当前目录
wget https://zenlayer.dl.sourceforge.net/project/bowtie-bio/bowtie2/2.5.2/bowtie2-2.5.2-linux-x86_64.zip unzip bowtie2-2.5.2-linux-x86_64.zip
- 进入解压后的Bowtie2目录
cd bowtie2-2.5.2-linux-x86_64/
- 执行
./bowtie2
命令./bowtie2
./bowtie2
是Bowtie2的可执行文件名,通过执行该命令,您可以使用Bowtie2进行后续的操作,如比对或建立索引等
2. 运行bwa将read比对到参考基因组
2.1. 命令示例
- 创建一个名为
bwa_test
的目录,并进入该目录。mkdir ~/bwa_test -p cd ~/bwa_test/
- 复制
GCA_000012525.1_ASM1252v1_genomic.fna
文件到当前目录。
上述文件为老师为我们提供的练习文件,我们自己可以使用cp /disk1/shares/Seqs/GCA_000012525.1_ASM1252v1_genomic.fna .
wget
命令从相应网站获取并解压到当前目录:wget ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCA/000/012/525/GCA_000012525.1_ASM1252v1/GCA_000012525.1_ASM1252v1_genomic.fna.gz gunzip GCA_000012525.1_ASM1252v1_genomic.fna.gz
- 使用
bwa index
命令为参考基因组建立索引。
这将为bwa index GCA_000012525.1_ASM1252v1_genomic.fna -p PCC7942_index
GCA_000012525.1_ASM1252v1_genomic.fna
文件建立一个名为PCC7942_index
的BWA索引。 - 使用
bwa mem
命令对测序数据进行比对:
这将使用BWA对bwa mem PCC7942_index /disk1/shares/Seqs/test_7942raw_1.fq.gz /disk1/shares/Seqs/test_7942raw_2.fq.gz > test_bwa_7942.sam
test_7942raw_1.fq.gz
和test_7942raw_2.fq.gz
进行比对,并将比对结果保存到test_bwa_7942.sam
文件中。 - 使用
less
命令查看test_bwa_7942.sam
文件的内容:
这将以分页浏览的方式显示less test_bwa_7942.sam
test_bwa_7942.sam
文件的内容。可以使用上下方向键进行滚动,按q
键退出浏览模式。
2.2. 上机演示
使用less
命令查看test_bwa_7942.sam
文件的内容:
3. 运行Bowtie2将read比对到参考基因组安装运行
3.1. 命令示例
- 创建一个名为"bowtie2_test"的目录,并进入该目录。
mkdir bowtie2_test cd bowtie2_test/
- 将参考基因组文件
GCA_000012525.1_ASM1252v1_genomic.fna
复制到当前目录。cp /disk1/shares/Seqs/GCA_000012525.1_ASM1252v1_genomic.fna ./ #老师提供的文件,我们可以自己获取 ll #查看当前目录文件列表
- 使用
bowtie2-build
命令为参考基因组建立索引:
这将为bowtie2-build GCA_000012525.1_ASM1252v1_genomic.fna PCC7942_index
GCA_000012525.1_ASM1252v1_genomic.fna
文件建立一个名为PCC7942_index
的Bowtie2索引。 - 使用
bowtie2
命令对测序数据进行比对:
这将使用Bowtie2对bowtie2 -x PCC7942_index -1 /disk1/shares/Seqs/test_7942raw_1.fq.gz -2 /disk1/shares/Seqs/test_7942raw_2.fq.gz -S test_bowtie2.sam
test_7942raw_1.fq.gz
和test_7942raw_2.fq.gz
进行比对,并将比对结果保存到test_bowtie2.sam
文件中。 - 使用
ll
命令(或ls -l
)来查看当前目录中的文件列表:
这将显示当前目录中的文件和文件夹的详细信息,包括文件名、大小和权限等。ll
3.2. 上机演示
4. 比较bwa和bowtie2运行速度
4.1. 命令示例
使用了time
命令来测量Bowtie2和BWA的运行时间。
-
运行以下命令来使用Bowtie2进行比对:
time bowtie2 -x PCC7942_index -1 /disk1/shares/Seqs/test_7942raw_1.fq.gz -2 /disk1/shares/Seqs/test_7942raw_2.fq.gz -S test_bowtie2.sam
这将对
test_7942raw_1.fq.gz
和test_7942raw_2.fq.gz
进行Bowtie2比对,并将结果保存到test_bowtie2.sam
文件中。time
命令会输出Bowtie2的运行时间。 -
运行以下命令来使用BWA进行比对:
time bwa mem -t 1 ../bwa_test/PCC7942_index /disk1/shares/Seqs/test_7942raw_1.fq.gz /disk1/shares/Seqs/test_7942raw_2.fq.gz >test_bwa_7942.sam
这将对
test_7942raw_1.fq.gz
和test_7942raw_2.fq.gz
进行BWA比对,并将结果保存到test_bwa_7942.sam
文件中。同样,time
命令会输出BWA的运行时间。
-t 1
选项用于指定线程数,您可以根据需要进行调整。
4.2. 上机演示
在第一条指令中出现(ERR): "PCC7942_index" does not exist or is not a Bowtie 2 index
报错
根据错误信息可知Bowtie2无法找到名为"PCC7942_index"的索引文件。
- 首先,确保在当前目录中存在名为"PCC7942_index"的Bowtie2索引文件。如果已经执行了建立索引的步骤,就检查索引文件是否正确生成,并且在当前目录中。
如果尚未建立索引,您可以尝试重新执行以下命令来建立Bowtie2索引:
确保参考基因组文件bowtie2-build GCA_000012525.1_ASM1252v1_genomic.fna PCC7942_index
GCA_000012525.1_ASM1252v1_genomic.fna
存在,并且位于正确的位置。建立索引过程可能需要一些时间,要等一会儿。建立成功后,可以再次运行Bowtie2比对命令。 - 如果问题仍然存在,检查命令中的文件路径是否正确,并确保文件和目录的权限设置正确。