2024.5.15文献分享【ChIP-R: Assembling reproducible sets of ChIP-seq and ATAC-seq peaks from multiple...】

【Title】ChIP-R: Assembling reproducible sets of ChIP-seq and ATAC-seq peaks from multiple replicates

【Publication Book】Genomics

【Publication Time】2021 April

【Abstract】

Chromatin immunoprecipitation followed by sequencing (ChIP-seq) is the primary protocol for detecting genome-wide DNA-protein interactions, and therefore a key tool for understanding transcriptional regulation. A number of factors, including low specificity of antibody and cellular heterogeneity of sample, may cause “peak” callers to output noise and experimental artefacts. Statistically combining multiple experimental replicates from the same condition could significantly enhance our ability to distinguish actual transcription factor binding events, even when peak caller accuracy and consistency of detection are compromised.

We adapted the rank-product test to statistically evaluate the reproducibility from any number of ChIP-seq experimental replicates. We demonstrate over a number of benchmarks that our adaptation “ChIP-R" (pronounced ‘chipper’) performs as well as or better than comparable approaches on recovering transcription factor binding sites in ChIP-seq peak data. We also show ChIP-R extends to evaluate ATAC-seq peaks, finding reproducible peak sets even at low sequencing depth. ChIP-R decomposes peaks across replicates into “fragments” which either form part of a peak in a replicate, or not. We show that by re-analysing existing data sets, ChIP-R reconstructs reproducible peaks from fragments with enhanced biological enrichment relative to current strategies.

【Background】

ChIP-seq提供了生物样本中目标蛋白占据的基因组位点,目标蛋白通常是转录因子(TF)或具有特定修饰的组蛋白。ChIP-seq 容易产生假阳性信号,因为在免疫沉淀过程中,未被目标蛋白结合的 DNA 区域会被无差别地拉下来。可重复性实验是指在多个独立的重复实验中进行的、结果一致的实验,测量整个实验的可重复性表明了所得数据集的整体质量,因此对科学过程至关重要。这对 ChIP-seq 尤为重要,因为在 ChIP-seq 中,单个数据点之间的差异,无论是在重复中还是在不同重复中,都是很常见的;一个可理解、可报告的指标能对结合位点进行筛选,从而减少噪音,优先选择结合位点进行进一步研究。

随着 ENCODE 3 的问世,有必要对峰值重现性工具进行升级,以便能够在多个重复本之间进行比较 ,因为测序成本的降低导致 ChIP-seq 实验使用的典型重复本数量相应增加 。

对代表数千个 TF 结合事件的可重复峰值进行评估并非易事;独立验证的数据集仅限于少数 TF 和条件,而且通常只包括很少的负数据点。因此,本文概述了衡量可重复性指标性能的几种补充分析,重点是识别富含生物相关信息的基因组区域,并强调在不丢失信息的情况下恢复 TF 结合位点可重复性部分的能力。

目前提供 ChIP-seq 检测可重复性指标的实现方法都是为成对比较量身定制的,包括不可重复发现率(IDR);其他实现方法则使用经验方法,这些方法在存在多个重复的情况下计算量过大。能处理生物重复序列的峰值调用器包括 MACS2 [7]、PePr [31]、Sierra Platinum [24] 和 BinQuasi [9]。MACS2 可以通过将读数汇集到一个合并的超级样本中来分析多个重复样本。由于 DNA 的过度扩增会造成信息和分辨率的损失,来自同一位置的不同重复的读数会被过滤掉。PePr、Sierra Platinum 和 BinQuasi 也将多个重复样本的读数合并在一起,以提高峰值调用的效率;虽然也会产生质量统计,但都没有专门报告峰值的重现性。虽然我们将 MACS2 作为基线比较,但我们的重点是在峰值计算后运行的工具类别,将每个样本视为来自独立实验。

目前最广泛使用的评估重复序列重现性的方法是 IDR。IDR 由 ENCODE TF ChIP-seq 指南提出,通过评估重复序列之间等级分配的一致性来量化可重现峰[20]。IDR 的标准实施仅限于一次评估两个重复样本,要求峰值在两个重复样本中都出现,并将重现性指标分配给峰值调用者偏爱的(单一、未调整的)峰值所代表的区间。如果目标是合并两个以上的重复样本,最简单的方法是取各重复样本的峰值之和。MSPC [14]使用费雪方法证实了单个重复中的统计证据,以挽救较弱的峰调用;它可以自然扩展到两个以上的重复,但只在单个 TF 上进行了测试,与 IDR 相比报告了大量的峰。

秩产检验天生适合串联观察多个重复样本,避免了任意配对重复样本进行分析的需要[3,4]。该检验是非参数检验,以前曾用于评估包括微阵列在内的其他数据类型的可重复性[6]。我们假设,这种统计方法可以有效评估峰值的重现性,并通过分解重复样本中的单个峰值来确定峰值的最可靠边界。最终,可重复性和适当特异性的 ChIP-seq 峰应显示出更高的生物内容富集度。本文概述了我们的方法,并将其作为一种名为 ChIP-R 的工具加以实施;我们证明,对秩积检验的改良提高了从 ChIP-seq 数据中提取的生物信息的质量,同时通常(但不限于)优于其他将多个重复数据进行统计组合的方法。

  • 14
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值