Macs处理ChIP_Seq数据

随着测序技术的改进,染色质免疫沉淀和高通量测序(ChIP-Seq)在研究全基因组蛋白质-DNA相互作用方面越来越流行。为了解决芯片序列分析方法的不足,我们提出了基于模型的芯片序列分析(MACS),用于识别转录因子结合位点。MACS捕捉基因组复杂性的影响以评估富集芯片区域的重要性,并且MACS通过结合测序标签位置和方向的信息来提高结合位点的空间分辨率。MACS可以很容易地单独用于芯片序列数据,或用于增加特异性的对照样品。此外,作为一般的峰值调用者,MACS也可以应用于任何“DNA富集分析”,如果要问的问题很简单:我们可以在哪里找到比随机背景更重要的读取覆盖率。

MACS中有七个主要功能作为子命令。

子命令描述
callpeak主MACS2从对齐结果调用峰值的功能。
bdgpeakcall从bedGraph输出调用峰值。
bdgbroadcall从bedGraph输出调用宽峰。
bdgcmp比较bedGraph格式的两个信号轨道。
bdgopt操作bedGraph文件的得分列。
cmbreps结合重复分数的BEDGraphs。
bdgdiff基于成对的四个bedgraph文件的差分峰值检测。
filterdup删除重复读取,然后以BED / BEDPE格式保存。
predictd从对齐结果预测d或片段大小。
pileup堆积对齐读取(单端)或片段(配对端)
randsample随机选择总读数的数量/百分比。
refinepeak采取原始读取对齐,细化峰值峰值。
### 1. conda 安装
conda install macs2

### 2. 比对和统计

bwa mem ref.fa test_read1.fq test_read2.fq > test_pe.sam  # PE 

# bwa mem ref.fa test.fq.gz > test_pe.sam  # SE

samtools flagstat test_pe.sam
# 保留只比对到一个位点的序列
samtools view -bq test_pe.sam >test_unique.bam
samtools flagstat test_unique.bam

###3. 去重
macs2 filterdup -i test_unique.bam -g hs --keep-dup 1 -o test.bed

# % redundancy in the .err file

### 3. Call peaks

# without control 
macs2 call peaks  -t test.bed -f AUTO -g hs -q <FDR cutoff> -fe-cutoff <fold change>
--outdir path/to/save/your/output/dir  -n output_prefix

#-t/--treatment filename, -c/--control, -n/--output name, -f/--format of tag files
#--outdir/--the folder where all the output files saved into, -n/--name of the output as NAME_peaks.bed
#-g/--gsize The default hs -- 2.7e9 is recommended as for UCSC human hg18 assembly
#-q/--qvalue (minimum FDR) cutoff to call significant regions. Default is 0.05.

# with control
macs2 call peaks  -t treat.bed -c control.bed -f AUTO -g hs -q <FDR cutoff> -fe-cutoff <fold change>
--outdir path/to/save/your/output/dir -n output_prefix

参考:

https://macs3-project.github.io/MACS/

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Chip-seq是一种常用的高通量测序技术,用于研究转录因子与染色体上的特定DNA序列的相互作用。在进行Chip-seq实验时,需要处理输入(input)数据。 输入数据是用于对照的样本,其中不添加任何特定的抗体,仅与转录因子结合的非特异性DNA序列。通过与ChIP样本进行对比,可以更准确地确定结合位点和调控区域。 处理input数据的步骤如下: 1. 数据质量控制:对input数据进行质量控制,包括检查测序质量、去除低质量的reads和去除接头序列等。 2. 比对到参考基因组:使用比对算法将input数据与参考基因组进行比对,以确定每个reads的位置。 3. 移除PCR重复:由于PCR扩增会引入偏差,需要移除PCR重复的reads,以避免伪阳性结果。 4. 去除黑名单区域:黑名单区域包括重复序列、低复杂度区域和其他会干扰Chip-seq结果的区域,需要从input数据中去除。 5. 突变校正:由于碱基突变和背景噪音的存在,需要对input数据进行突变校正,以提高信噪比。 6. 结合位点识别:通过与ChIP样本进行比对,确定input数据中的结合位点。此步骤可以使用多种算法,如MACS、SICER等。 7. 数据过滤和统计:根据预设的统计学阈值和过滤标准,对input数据中的结合位点进行过滤和统计,以确定显著的调控区域。 处理input数据的目的是建立一个对照组,用于确定实验结果中的真实结合位点和调控区域。通过与ChIP样本进行比较,可以排除背景噪音、探测假阳性结果,并提高Chip-seq的可靠性和准确性。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值