零基础小白笔记6 | 使用bowtie2进行数据比对

  ❀前言:(书接上回)

零基础小白笔记1 | ChIP-seq原理、操作流程、分析流程

零基础小白笔记2 | 数据与样本信息处理

零基础小白笔记3 | 数据处理与质控

零基础小白笔记4 | 数据质控报告全解读

零基础小白笔记5 | 数据清洗与再次质控

一、下载bowtie2:

conda install bowtie2
## 或者使用pip命令
pip install bowtie2

二、下载参考基因组:

【注意,本数据的实验模型是小鼠,故参考基因组为mm10数据,下载地址

(1)进行数据下载:

wget http://hgdownload.cse.ucsc.edu/goldenPath/mm10/bigZips/chromFa.tar.gz 

(2)数据下载完成后解压:

tar -zxvf chromFa.tar.gz 

 (2.1)tar命令的使用:代码中表示使用gzip进行解压缩,并显示详细信息,指定归档文件名称;

  •  -c: 创建新的归档文件;
  • -x: 解压归档文件 ;
  • -f: 指定归档文件的名称 ;
  • -v: 显示详细信息 ;
  • -z: 使用gzip压缩/解压缩 ;
  • -C: 切换到指定目录;

(3)合并文件:

cat *.fa > mm10.fa

(3.1)该命令用于合并多个fasta格式的文件,将所有以.fa结尾的文件内容合并成名为mm10.fa

(3.2)其中,*为通配符,>表示将输出重定向到一个文件中;

三、构建索引

bowtie2-build mm10.fa mm10

(1)bowtie2-build 命令用于构建索引,命令格式:bowtie2-build <参考基因组> <索引文件前缀>

(2)该命令中,mm10.fa为参考基因文件,mm10是索引文件前缀;

四、运行bowtie2 获取 SAM 文件

(1)分析单端测序的数据:

bowtie2 -p 6 --local -x mm10 -U ./data/cleandata/SRR5195455.fastq -S SRR5195455.sam
  • -p :分析数据时所用的线程数;命令中表示用6个线程分析;

  • --local:使用Local的对比模式;

  • -x:指定比对所使用的索引文件前缀;本次分析中索引文件前缀为mm10;

  • -U:指定单端测序数据文件;

  • -S:指定对比结果输出文件;本次分析中将输出文件设为SRR5195455.sam;

(2)分析双端测序的文件:

bowtie2 -p 6 -x mm10 -1 input_1.fq -2 input_2.fq 
  • -1:指定双端测序数据文件的第一条读取序列文件;

  • -2:指定双端测序数据文件的第二条读取序列文件;

  • 其余选项意义相同;

(3)sam文件:是一种用于存储测序数据的比对结果的常用的文本格式,通常包含了测序数据中每个读取序列的比对位置、比对质量、序列标识等信息;SAM 文件是一种文本文件,可以使用文本编辑器进行查看和编辑;

(4)SAM 文件通常会被进一步转换为 BAM(Binary Alignment/Map)格式,以便于存储和处理。BAM 格式是 SAM 格式的二进制版本,可以更加高效地存储和处理大规模的比对结果数据;

五、sam文件转换为bam文件:

samtools view -hb SRR5195455.sam > SRR5195455.bam

(1)samtools工具是一个用于处理sam和bam格式文件的工具集,可以对测序数据进行处理、分析和转换,如格式转换、排序和索引、对比文件处理、统计信息和比对操作等;

(2)samtools view命令用于将bam文件转换为sam文件;用法:samtools view   [options]   <file>

  • -b: 将sam文件转换为bam文件输出;
  • -h: 输出文件包含头部信息;
  • -q <int>: 仅输出比对质量大于等于指定值的比对记录;
  • -L <file>: 仅输出与指定bed文件中区域重叠的比对记录;
  • -r <readgroup>: 仅输出与指定read group匹配的比对记录;
  • --no-unal:删除没有被比对的查询序列;如果未指定该选项,Bowtie2将输出两个文件,一个是经比对的序列文件,另一个是未被比对的查询序列文件;

六、bam文件的排序:

(1)排序后的BAM文件按照染色体的编号和起始位置进行排序,可以方便的进行基因组序列的比对分析、注释等操作;samtools sort命令根据SAM、BAM或CRAM文件中的坐标对比对进行排序

samtools sort -O BAM -m 8g -@ 6 -o ./SRR5195455_sorted.bam SRR5195455.bam

(2)用法:samtools sort -o output.bam input.bam

  • -O:代表输出文件格式为BAM;
  • -m:指定每个线程的最大内存;允许使用后缀K/M/G(默认值为768M);
  • -@:指定使用的线程数,本次分析使用6个线程;
  • -o:指定了排序后的BAM文件的输出文件名;
  • input.bam:代表要排序的输入BAM文件;

七、查看bam文件:

samtools view -h SRR5195455_sorted.bam | less -S
  • -h :代表查看bam文件时保留头部信息;
  • |:为管道符,将左侧命令的输出结果输入到右侧命令;
  • less命令可用于查看文件
  • -S:代表查看文件时在水平方向上不换行;

八、计算mapping率:

bowtie2 flagstat your_alignment_file.bam

1.bowtie2 flagstat命令可以用于统计比对情况,包括比对的reads数目、未比对的reads数目等。

  • 38
    点赞
  • 32
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

我是田田啊

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值