参考:生信小工具专题:BBTools/BBMap Suite 的使用 (1) - 简书
BBtools安装
进入网址:Download BBMap
点击安装
放到服务器中
tar -xvzf BBMap_39.06.tar.gz
#测试安装
bash ~/bbmap/stats.sh in=~/bbmap/resources/phix174_ill.ref.fa.gz
#发现java没安
java -version
#安装java
sudo apt install default-jdk
java -version
#openjdk version "11.0.21" 2023-10-17
whereis java
#/usr/bin/java
vim ~/.bashrc
#添加下列到~/.bashrc并保存
export PATH=$PATH:/usr/bin/java
source ~/.bashrc
#再试一次
bash ~/bbmap/stats.sh in=~/bbmap/resources/phix174_ill.ref.fa.gz
安装成功
stats.sh和statswrapper.sh
用于统计reads或者assembly基本的信息
stats.sh in=123.fastq
statswrapper.sh *.fastq
pileup.sh
用于计算scaffold的覆盖率,需要没有sort过的bam 或者 sam 的格式的文件作为input
pileup.sh in=test.sam out=test.out
Reads:读数,表示测序得到的序列的数量,这里是66234。
Mapped reads:映射读数,表示能够映射到参考序列的读数的数量,这里是57247。
Mapped bases:映射碱基,表示映射到参考序列的碱基的总数,这里是8587050。
Ref scaffolds:参考序列的数量,这里是9。
Ref bases:参考序列的碱基总数,这里是41030279。
Percent mapped:映射百分比,表示读数中能够映射到参考序列的百分比,这里是86.431%。
Percent proper pairs:正确配对的百分比,表示在配对末端序列中,两个序列都能正确映射到参考序列的百分比,这里是0.000%。
Average coverage:平均覆盖度,表示每个参考序列碱基被平均覆盖的次数,这里是0.209。
Standard deviation:标准差,表示覆盖度的变异程度,这里是0.583。
Percent scaffolds with any coverage:有任何覆盖度的参考序列的百分比,表示至少有一个读数映射到的参考序列的百分比,这里是100.00%。
Percent of reference bases covered:覆盖的参考序列碱基的百分比,表示至少被一个读数覆盖的参考序列碱基的百分比,这里是15.45%。
readlength.sh
统计read的平均长度,总长度等数据信息
kmercountexact.sh
计算文件中unique kmers的数量。生成kmer频率直方图和基因组大小估计。
bash kmercountexact.sh in=A1.1.fastq in2=A1.2.fastq out=kmer_test.out khist=kmer.khist peaks=kmer.peak
bbmerge.sh
合并双末端序列,比如16s数据
bbmerge.sh in1=<read1> in2=<read2> out=<merged reads> outu1=<unmerged1> outu2=<unmerged2>
BBduk使用
time bash bbduk.sh in1=F1.raw.1.fq.gz in2=F1.raw.2.fq.gz out=BBduk_F1.fq.gz \
qtrim=rl trimq=30 -Xmx435g t=180 ktrim=r k=23 mink=11 hdist=1 tpe tbo prealloc ftl=10 ftm=5 maq=10 ref=adapters.fa,/phix_adapters.fa