❀前言:(书接上回)
零基础小白笔记1 | ChIP-seq原理、操作流程、分析流程
一、下载bowtie2:
conda install bowtie2
## 或者使用pip命令
pip install bowtie2
二、下载参考基因组:
【注意,本数据的实验模型是小鼠,故参考基因组为mm10数据,下载地址】
(1)进行数据下载:
wget http://hgdownload.cse.ucsc.edu/goldenPath/mm10/bigZips/chromFa.tar.gz
(2)数据下载完成后解压:
tar -zxvf chromFa.tar.gz
(2.1)tar命令的使用:代码中表示使用gzip进行解压缩,并显示详细信息,指定归档文件名称;
- -c: 创建新的归档文件;
- -x: 解压归档文件 ;
- -f: 指定归档文件的名称 ;
- -v: 显示详细信息 ;
- -z: 使用gzip压缩/解压缩 ;
- -C: 切换到指定目录;
(3)合并文件:
cat *.fa > mm10.fa
(3.1)该命令用于合并多个fasta格式的文件,将所有以.fa结尾的文件内容合并成名为mm10.fa
(3.2)其中,*为通配符,>表示将输出重定向到一个文件中;
三、构建索引
bowtie2-build mm10.fa mm10
(1)bowtie2-build 命令用于构建索引,命令格式:bowtie2-build <参考基因组> <索引文件前缀>
(2)该命令中,mm10.fa为参考基因文件,mm10是索引文件前缀;
四、运行bowtie2 获取 SAM 文件
(1)分析单端测序的数据:
bowtie2 -p 6 --local -x mm10 -U ./data/cleandata/SRR5195455.fastq -S SRR5195455.sam
-
-p :分析数据时所用的线程数;命令中表示用6个线程分析;
-
--local:使用Local的对比模式;
-
-x:指定比对所使用的索引文件前缀;本次分析中索引文件前缀为mm10;
-
-U:指定单端测序数据文件;
-
-S:指定对比结果输出文件;本次分析中将输出文件设为SRR5195455.sam;
(2)分析双端测序的文件:
bowtie2 -p 6 -x mm10 -1 input_1.fq -2 input_2.fq
-
-1:指定双端测序数据文件的第一条读取序列文件;
-
-2:指定双端测序数据文件的第二条读取序列文件;
-
其余选项意义相同;
(3)sam文件:是一种用于存储测序数据的比对结果的常用的文本格式,通常包含了测序数据中每个读取序列的比对位置、比对质量、序列标识等信息;SAM 文件是一种文本文件,可以使用文本编辑器进行查看和编辑;
(4)SAM 文件通常会被进一步转换为 BAM(Binary Alignment/Map)格式,以便于存储和处理。BAM 格式是 SAM 格式的二进制版本,可以更加高效地存储和处理大规模的比对结果数据;
五、sam文件转换为bam文件:
samtools view -hb SRR5195455.sam > SRR5195455.bam
(1)samtools工具是一个用于处理sam和bam格式文件的工具集,可以对测序数据进行处理、分析和转换,如格式转换、排序和索引、对比文件处理、统计信息和比对操作等;
(2)samtools view命令用于将bam文件转换为sam文件;用法:samtools view [options] <file>
- -b: 将sam文件转换为bam文件输出;
- -h: 输出文件包含头部信息;
- -q
<int>
: 仅输出比对质量大于等于指定值的比对记录; - -L
<file>
: 仅输出与指定bed文件中区域重叠的比对记录; - -r
<readgroup>
: 仅输出与指定read group匹配的比对记录; - --no-unal:删除没有被比对的查询序列;如果未指定该选项,Bowtie2将输出两个文件,一个是经比对的序列文件,另一个是未被比对的查询序列文件;
六、bam文件的排序:
(1)排序后的BAM文件按照染色体的编号和起始位置进行排序,可以方便的进行基因组序列的比对分析、注释等操作;samtools sort
命令根据SAM、BAM或CRAM文件中的坐标对比对进行排序
samtools sort -O BAM -m 8g -@ 6 -o ./SRR5195455_sorted.bam SRR5195455.bam
(2)用法:samtools sort -o output.bam input.bam
- -O:代表输出文件格式为BAM;
- -m:指定每个线程的最大内存;允许使用后缀K/M/G(默认值为768M);
- -@:指定使用的线程数,本次分析使用6个线程;
- -o:指定了排序后的BAM文件的输出文件名;
- input.bam:代表要排序的输入BAM文件;
七、查看bam文件:
samtools view -h SRR5195455_sorted.bam | less -S
- -h :代表查看bam文件时保留头部信息;
- |:为管道符,将左侧命令的输出结果输入到右侧命令;
- less命令可用于查看文件
- -S:代表查看文件时在水平方向上不换行;
八、计算mapping率:
bowtie2 flagstat your_alignment_file.bam
1.bowtie2 flagstat命令可以用于统计比对情况,包括比对的reads数目、未比对的reads数目等。