ChIP-seq/ATAC-seq peak calling and QC

1. 实验目的

通过对ChIP-seq/ATAC-seq的数据进行peak calling、quality control(QC),熟悉常用的peak calling 工具MACS2、GEM。同时也要了解什么是blacklist region,并知道为什么、如何去除blacklist region。学习IGV browser的基本用法,学会用IGV查看bam、bdg(bedGraph)、narrowPeak文件,通过本实验,能够了解ChIP-seq/ATAC-seq的基本分析方法。

2. 实验准备

2.1 实验平台

Linux JSvr02 3.10.0-1160.80.1.el7.x86_64 #1 SMP Tue Nov 8 15:48:59 UTC 2022 x86_64 x86_64 x86_64 GNU/Linux

2.2 数据简述
数据数据来源
ATAC-seq :SRR7696734NCBI数据库
ChIP-seq :SRR5179211NCBI数据库
2.3 软件配置
Softwareversion
IGVIGV_2.6.3
FileZilla3.67.1_win64
MACS22.2.9.1
GEM3.4
bedtoolsbedtools2-2.29.2

3. 实验内容

分别用MACS2、GEM对CHIP/ATAC-seq数据进行peak calling,然后通过bedtools去除黑名单序列,通过IGV查看去除黑名单序列前后的区别,给出结论。

3.1 Prepare the working directory and visualize ChIP-seq and ATAC-seq data in IGV

下载数据、FIlezilla,IGV,将ChIP-seq/ATAC-seq对应的bam文件、bam.bai文件置于IGV browser中查看。
(a)Download files to your laptop
Use Filezilla to download:

  • ChIP-seq_SRR5179211_Rep1.bam
  • ChIP-seq_SRR5179211_Rep1.bam.bai
  • ATAC-seq_Rep1_SRR7696734.bam
  • ATAC-seq_Rep1_SRR7696734.bam.bai

bai文件是bam文件的索引文件。

(b)Load sacCer3(酵母菌) genome into IGV
选择参考基因组sacCer3。
(c )Open BAM files,view the following genomic coordinates:

chrV:175,594-181,774
在这里插入图片描述
chrXII:666,176-671,951
在这里插入图片描述
chrXIV:449,980-454,181
在这里插入图片描述

3.2 ChIP-seq peaks calling

(a) Call ChIP-seq peaks with MACS2

  1. 下载MACS2
conda install bioconda::macs2
  1. Call peak
macs2 callpeak -t ChIP-seq_SRR5179211_Rep1.bam -f BAM -g 1.2e7 -n CS_Rep1 -B -q \
0.05 --nomodel --extsize 100 --keep-dup all --call-summits
macs2 callpeak -t ChIP-seq_SRR5179212_Rep2.bam -f BAM -g 1.2e7 -n CS_Rep2 -B -q \
0.05 --nomodel --extsize 100 --keep-dup all --call-summits

MACS2全称Model-based Analysis of ChIP-Seq,是最常用的peak calling工具。

  • -t 实验组的比对结果;
  • -c 对照组(Control)的比对结果;
  • -f : 指定输入文件的格式。可以是“ELAND”, “BED”, “ELANDMULTI”, “ELANDEXPORT,“ELANDMULTIPET” (for pair-end tags), “SAM”, “BAM”, “BOWTIE”, “BAMPE” “BEDPE” 任意一个。如果不提供这项,则自动检测(对于Single-end数据),若是Paired-end的数据,则必须说明是“BAMPE”如果使用了“BAMPE”,将跳过建立双峰,根据实际的插入大小来构建峰,同时参数–nomodel和–extsize失效
  • -g:有效基因组大小。软件里给出默认的g 值:hs(人类): 2.7e9,mm(小鼠): 1.87e9,这里使用的是科学计数法对于没有默认g值的需自己给出,比如本实验中的酵母菌,我们给出的是1.2e7;
  • -n:输出文件名的前缀;
  • -B/--bdg :输出bedgraph格式的文件。
  • -q/--qvalue :qvalue默认值是0.05,与pvalue不能同时使用,指定p值后MACS2就不会用q值了;
  • --nomodel : 这个参数说明不需要MACS去构建双峰模型,和extsize、shift是配套使用的,有这个参数才可以设置extsize和shift(MACS will bypass building the shifting model);
  • --extsize : 当设置了nomodel时,MACS会用–extsize这个参数从5’->3’方向扩展reads修复fragments。比如说你的转录因子结合范围200bp,就设置这个参数是200。双端测序可以预测read具体长度,因此不适用此参数。
  • --keep-dup: 该选项控制在完全相同的位置的重复tags的行为。“auto”选项使MACS基于使用1e-5作为pvalue截止的二项式分布计算在完全相同的位置的maximum tags;“all”选项保留每个标签。如果给定一个整数,最多这个数量的标签将被保留在同一个位置,默认值为1。
  • --call-summits : MACS利用此参数重新分析信号谱,解析每个peak中包含的subpeak。

Output:
在这里插入图片描述

less CS_Rep1_peaks.narrowPeak

在这里插入图片描述
在narrowPeak文件中,各列的含义:

  • 1:染色体号
  • 2:peak起始位点
  • 3:结束位点
  • 4:peak name
  • 5:int(-10*log10qvalue)
  • 6 :正负链
  • 7:fold change
  • 8:-log10pvalue
  • 9:-log10qvalue
  • 10: peak的中心,即summit距离peak起始位置的距离。

比如第二行的peak,第十列为70,起始位置(第二列)为12609,那么summit的位置大概在12680左右(对于这个例子,summit几乎位于peak的中心,但这只是一个特例):

在这里插入图片描述
在IGV中查看,事实也确实如此。

  1. Filter peaks with blacklist file
    Remove peaks that overlap with our blacklist regions.(本实验中blacklist regions以bed文件的形式给出)
bedtools intersect -v -a CS_Rep1_peaks.narrowPeak -b sacCer3_blacklist.bed > \
CS_Rep1_peaks_filter.narrowPeak
bedtools intersect -v -a CS_Rep2_peaks.narrowPeak -b sacCer3_blacklist.bed > \
CS_Rep2_peaks_filter.narrowPeak

在这里插入图片描述

  • -v:输出在-a参数文件中没有overlap的区域(在此就是没有与blacklist region重叠的区域,即排除了所有与黑名单重叠的区域 )
  • -a, -b:输入文件(BAM/BED/GFF/VCF格式)。

比较去除blacklist前后的区别:

diff CS_Rep1_peaks.narrowPeak CS_Rep1_peaks_filter.narrowPeak

在这里插入图片描述

  • diff结果中出现的a=add,d=delete,c=change。

此处82,89d81的意思是第二个文件相比于第一个文件在第81行之后删除(delete)了第82-89行,202,219d193的意思是第二个文件相比于第一个文件在第193行后delete了第202-219行。(此处为什么数字不连贯了,因为193是相对于第二个文件,202-219相对于第一个文件,在第一次删除中删除了8行,因此此处不连贯,就比如说:假如第一次没有删除这8行,那就是从201开始,就连贯)。

  1. Visualize in IGV
    Use Filezilla to download:
    CS_Rep1_peaks_filter.narrowPeak
    CS_Rep2_peaks_filter.narrowPeak
    CS_Rep1_treat_pileup.bdg
    CS_Rep2_treat_pileup.bdg

在IGV中分别查看三个区域:
chrV:175,594-181,774
在这里插入图片描述
chrXII:666,176-671,951
在这里插入图片描述
chrXIV:449,980-454,181
在这里插入图片描述
注意:此处要右键选择“Autoscale”使其显示合理的尺寸。

(b) Call ChIP-seq peaks with GEM

java -Xmx8G -jar gem.jar --t 4 --q 0.05 --d Read_Distribution_default.txt --g \
sacCer3.chrom.sizes --genome . --exptCS ChIP-seq_SRR5179211_Rep1.bam --exptCS \
ChIP-seq_SRR5179212_Rep2.bam --f BAM --out PeakOutput --k_min 6 --k_max 13
  • -Xmx8G :表示Java堆内存(Xmx)的最大容量为8G;
  • -jar:用于运行JAR(Java Archive)文件;
  • --t:Number of threads to run GEM in paralell.(default: physical CPU number)
  • --q:significance level for q-value, specified as -log10(q-value). For example, to enforce a q-value threshold of 0.001, set this value to 3.
  • --d:The path to the read distribution model file
  • --g:The path to a genome information file
  • --genome:The path to the genome sequence directory, which contains fasta files by chromosomes
  • --exptCS:The path to the aligned reads file for experiment (IP). X is condition name.
  • --f:Read file format: BED/SAM/BOWTIE/ELAND/NOVO. The SAM option allows SAM or BAM file input. (default = BED)
  • --out:Output folder and file name prefix
  • --k:the width of the k-mers
  • --k_min/max:minimum and maximum value of k

关于GEM的更多信息,可查看GEM
在这里插入图片描述

Open ‘PeakOutput.results.htm’ in a browser of your choice. The ChIP-seq dataset is from the
Reb1 yeast protein with sequence specificity for the ‘TTACCCK’ motif. Did GEM correctly identify
the motif at the peak?

从结果HTML文件中,可以看到筛选出了’TTACCCG’motif,GEM identify the motif at the peak correctly.

3.3 ATAC-seq peak calling
  1. call peaks using MACS2
macs2 callpeak -t ATAC-seq_Rep1_SRR7696734.bam -f BAM -g 1.2e7 -n ATAC_Rep1 -B -q \
0.05 --shift -75 --extsize 150 --nomodel --SPMR --keep-dup all --call-summits
macs2 callpeak -t ATAC-seq_Rep2_SRR7696734.bam -f BAM -g 1.2e7 -n ATAC_Rep2 -B -q \
0.05 --shift -75 --extsize 150 --nomodel --SPMR --keep-dup all --call-summits
  • --shift:绝对的偏移值,会先于–extsize前对read进行整体移动。。正数表示从5’往3’偏移延长到片段中心,如果是负数则是3’往5’偏移延长到片段中心。ATAC-seq数据中,此值设置为-1/2*extsize。
  • --extsize:当设置了nomodel时,MACS会用–extsize这个参数从5’->3’方向扩展reads修复fragments。比如说你的转录因子结合范围200bp,就设置这个参数是200。双端测序可以预测read具体长度,因此不适用此参数。
  • --SPMR:进影响bedGraph文件的输出,将bedGraph文件中的读数转化为每百万reads的比例。
  1. Filter peaks with blacklist file:
bedtools intersect -v -a ATAC_Rep1_peaks.narrowPeak -b sacCer3_blacklist.bed > \
ATAC_Rep1_peaks_filter.narrowPeak
bedtools intersect -v -a ATAC_Rep2_peaks.narrowPeak -b sacCer3_blacklist.bed > \
ATAC_Rep2_peaks_filter.narrowPeak
  1. Visualize in IGV :
    Use Filezilla to download:
    ATAC_Rep1_peaks_filter.narrowPeak
    ATAC_Rep2_peaks_filter.narrowPeak
    ATAC_Rep1_treat_pileup.bdg
    ATAC_Rep2_treat_pileup.bdg

chrV:175,594-181,774
在这里插入图片描述
chrXII:666,176-671,951
在这里插入图片描述
chrXIV:449,980-454,181
在这里插入图片描述

4. 实验总结

4.1 实验结论

ChIp-seq/ATAC-seq是表观基因组学(epigenomics)常用的两种测序手段,MACS2/GEM是peak calling中常用的工具,实验中,要注意去除黑名单序列,避免产生错误。

4.2 实验收获
  1. 学会了如何使用MACS2/GEM进行peak calling,对常用的各种参数有所了解;
  2. 学会了用IGV查看生物信息学中常见的bam、bgd、narrowpeak文件;
  3. 学会了用bedtools去除blacklist regions;
  4. 对ChIP-seq和ATAC-seq有最基本的认识。
4.3 其它心得

生物信息学中常用的一些工具/软件参数较多,可以通过官方网站学习各个参数的含义,再多加练习,以至于熟能生巧。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值