❀前言:(书接上回)
零基础小白笔记1 | ChIP-seq原理、操作流程、分析流程
零基础小白笔记8 | 将bam文件转换为bw文件并进行可视化
一、合并bam文件:
1.因为本次下载的数据有两个input组,故需要合并input组:
(1.1)使用samtools merge命令来合并两个bam文件;
samtools merge file_input.bam file_input1.bam file_input2.bam
(1.2)若bam文件大于20M,建议取其中的一半进行索引的建立:
samtools view -s 0.5 -b file_input.bam > file_input_half.bam
(1.3)使用samtools index命令来为合并后的BAM文件建立索引文件:
samtools index file_input.bam
二、使用macs2进行call peak:
1.macs2是一个用于分析染色质免疫共沉淀(ChIP-seq)数据的工具,它可以用来识别转录因子结合位点和组蛋白修饰位点,是由刘小乐实验室开发的一款在ubuntu上运行的专门处理CHIP-Seq数据的下游软件;
2.使用用法:
macs2 callpeak -t ChIP.bam -c input.bam -f BAM -g mm -q 0.01 -n test -B --outdir /your/output/file
-
-t:实验组的比对结果。(可以分开对每个样本进行call peaks)
-
-c:对照组的比对结果(input);
-
-f:指定输入文件的格式,本次分析中为bam文件;
-
-g:基因组大小,软件里给出默认g 值:hs: 2.7e9,mm: 1.87e9,ce: 9e7,dm: 1.2e8,本次分析中使用小鼠模型,故指定mm为基因组;
-
-q:用于指定在进行峰值调用(peak calling)时的调整后的 q 值阈值,本次分析中仅保留那些具有调整后的 q 值小于或等于0.01的峰值;
-
-n:输出文件前缀;
-
--outdir:输出结果的存储路径;
-
-B/--bdg:是否输出bedgraph格式的文件;
【注意:本次分析为单端测序文件,故-f选项为BAM;若数据为双端测序文件,则需指定-f选项为BAMPE】
三、macs2输出结果:
1.d5_NGO_rep1_control_lambda.bdg:本文件是由于选项-B 生成了bedgraph文件。是一个用于存储基因组测序数据的文件,通常包含控制样本的信号强度或测序深度的信息,包含了对应于基因组上每个位置的控制样本的测序信号值,可以转换为bw文件进一步可视化;
2.d5_NGO_rep1_model.r:通过$Rscript NAME_model.r作图,直接运行即可在当前目录下生成一个该样本构建双峰模型的结果图和质控图NAME_model.pdf;
3.d5_NGO_rep1_peaks.narrowPeak:narrowPeak文件是BED6+4格式,可以上传到UCSC browser查看数据。通常包含了基因组上的坐标信息及与这些坐标相关联的峰值调用的统计信息。
4.d5_NGO_rep1_peaks.xls:内容和narrowPeak文件基本相同,只是一种更方便阅读的形式;
5.d5_NGO_rep1_summits.bed:包含peak的summits位置。这个bed文件展示的是peak峰对应的碱基位置。这个bed文件因为只是记录peak峰对应的碱基位置,所以对应的位置也都只有一个碱基。MACS2建议用该文件寻找结合位点motif。
四、将bdg文件转换为bw文件并进行可视化:
bedGraphToBigWig file.bdg mm10.fa.fai file.bw
1.bedGraphToBigWig:是一个用于将 BEDGraph 格式的数据转换为 BigWig 格式的工具。bedGraph 是一种文本格式,用于表示基因组上的连续信号数据,例如测序覆盖度或甲基化水平。而 BigWig 是一种二进制格式,用于高效存储和查询基因组上的数值信号数据。
2.使用用法:
bedGraphToBigWig input.bedGraph chrom.sizes output.bigWig
-
input.bedGraph::指定输入的 BEDGraph 文件,包含基因组上的信号数据。
-
chrom.sizes: 指定染色体大小信息的文件,其中包含每个染色体的名称和长度。
-
output.bigWig: 指定输出的 BigWig 文件,将 BEDGraph 数据转换为 BigWig 格式后保存的文件路径。
五、对两个bdg文件去除噪音
macs2 bdgcmp -t file_treat_pileup.bdg -c file_control_lambda.bdg -o file.bdg -m FE
1.macs2 bdgcmp是 MACS2 工具集中的一个命令,用于比较两个信号文件(如测序峰值调用的结果)之间的差异。
2.使用用法:
macs2 bdgcmp -t <treatment.bdg> -c <control.bdg> --o-prefix <output_prefix> --operation <operation>
- -t:指定待比较的信号文件(通常是处理组或样本的信号文件,比如峰值调用的结果);
- -c:指定参照的信号文件(通常是对照组或样本的信号文件);
- -o:指定输出文件目录;
- -m FE:用于计算富集倍数,降低噪音;
六、补充:
1.我在去除噪音后将所得bdg文件转换为bw文件时遇到报错:
d5_NGO_rep1.bdg is not case-sensitive sorted at line 56. Please use "sort -k1,1 -k2,2n" with LC_COLLATE=C, or bedSort and try again.
2.解决方法:使用bedSort将bdg文件进行排序操作,便可继续进行转换操作。
bedSort d5_NGO_rep1.bdg d5_NGO_rep1.bdg_sorted