BENGI & Measuring the reproducibility and quality of Hi-C data
1. A curated benchmark of enhancer-gene interactions for evaluating enhancer-target gene prediction methods
2. Measuring the reproducibility and quality of Hi-C data
文章目录
前言
介绍两篇Genome Biology的文章,这个期刊比较新,影响因子2018年14,2019年10.8,近几年有一些不错的文章。平均审稿时间很长,一般1.5-2月。A curated benchmark of enhancer-gene interactions for evaluating enhancer-target gene prediction methods
这篇文章建立了候选增强子-基因相互作用的benchmark(BENGI)数据集,并使用BENGI测试了几种已发布的将增强子与基因连接的计算方法。通讯作者是马萨诸塞州大学的翁志平教授。文章的code已经放在了github上。
1.Introduction
将全基因组候选顺式调控元件cCRE的Registry与实验得出的基因组相互作用相结合,开发了基准数据集BENGI。同时基于BENGI测试了几种公开的连接增强子与基因方法,包括:Closest gene method, Correlation-based approaches, TargetFinder, PEP-motif。实验发现,虽然TargetFinder是性能最好的方法,same cell type:仅略微优于baseline距离方法;across cell types:通常不会优于距离方法。结果表明,当前的计算方法需要改进,文章的基准测试为方法开发和测试提供了有用的框架。
2.BENGI
首先来介绍文章提出的数据集BENGI。这是数据集的建立流程。首先整理BENGI相互作用的实验数据集,这些相互作用按3D染色质相互作用,遗传相互作用和CRISPR / Cas9扰动分类。然后根据实验确定的相互作用或扰动链接(红色,粉红色或金色的虚线,阴影弧)生成cCRE基因对(绿色,绿色,红色或红色虚线)的方法。源自3D染色质相互作用的cCRE基因对有三类:对于阳性对(虚线)绿线,另一个锚点与一个基因的一个或多个TSS重叠;对于不明确的一对(带有灰色阴影的虚线),另一个锚点与多个基因的TSS重叠;对于负对(红色虚线),另一个锚点不与TSS重叠。
C:为了减少从3D交互数据中获得的潜在误报,我们实施了过滤步骤,以删除将cCREs-ELS与多个基因关联的模糊对(b中的灰色框)。对于明确列出链接基因(eQTL和crispRQTL)的测定,不需要此过滤步骤。此外,对于BENGI数据集之间的比较,我们还选择了具有固定阳性 阴性比率的交互匹配集。因此,每个3D染色质实验(A,B,C,D)总共整理了四个BENGI数据集,每个遗传相互作用和CRISPR / Cas-9扰动实验(A,B)整理了两个。d为避免过度拟合机器学习算法,所有cCRE基因对均根据其染色体位置分配给交叉验证(CV)组。同一染色体上的正对和负对被分配给同一CV组,而互补大小的染色体被分配给同一CV组,以使这些组包含大约相同数量的对。
这张图是BENGI数据集的一些统计特性。统计分析表明,BENGI数据集捕获了不同类别的基因组相互作用。因此基于BENGI数据集对计算方法的评估可以全面了解各个计算方法。
3.Methods
文章使用BENGI测试了几种已发布的将增强子与基因连接的计算方法。
- closest gene method:将增强子样特征的cCREs(cCRE-ELS)根据线性距离分配给其最近基因,方法是通过减去cCRE和最近的转录起始位点(TSS)的基因组坐标来计算。
- Correlation-based approaches:1. 将预测增强子上的DNase信号与TSS处的生物样品中的TSS处的DNase信号相关的方法2.基于DNase信号与基因表达。
- TargetFinder:在相应的细胞类型中使用表观基因信号,例如组蛋白标记ChIP-seq,TF ChIP-seq,DNase-seq作为特征输入。
- PEP-motif:使用TF序列基元的出现作为特征输入。
这是评估预测cCRE基因对的无监督方法的结果。图a是几种方法的PR曲线,除了介绍的基于距离和相关性的三种方法,还有两类方法的平均rank值。B图是种无监督方法的AUPR。可以看出基于距离的方法效果比基于相关的方法要好。还有一个方法是GeneHancer,这个方法仅优于随机预测。Cd是一种cCRE的连接和基因表达图,EH37E0853090主要在淋巴母细胞系(紫色三角形)中呈现高DNase信号,导致相关性较低。
这是评估预测cCRE基因对的有监督学习方法的结果。作者在实验中发现,两种监督学习方法最初实施的交叉验证(CV)允许将同一基因组位点的增强子-基因对分配给不同的CV组导致了数据泄露,所以数据集通过chromCV方法以确保始终将来自同一染色体的对分配给同一CV组。实验发现PEP-motif方法性能还不如距离方法。总体而言,TargetFinder的性能明显高于其在其他BENGI数据集上的性能。d完整和core4 TargetFinder模型的示意图。
图5是训练集和测试集在不同细胞类型上的测试结果,可以看出跨细胞类型时,即使是最好的方法效果也有所下降。并且效果不如距离方法。
4.Conclusion
总的来说,所有评估的计算方法都存在预测Hi-C对的困难。即使对于固定比率的数据集,Hi-C对始终表现出最低的整体性能。
Measuring the reproducibility and quality of Hi-C data
接下来来看第二篇文章,这篇文章评测了几种测量Hi-C数据质量和可重复性的方法。通讯作者是华盛顿大学的基因组科学系,主要研究计算生物学,机器学习和蛋白质组学。文章涉及到的所有软件都被整合到了github上
1.Introduction
Hi-C分析将染色体构象捕获(3C)与第二代测序结合在一起,从而有可能以全基因组的方式分析染色质的三维结构。Hi-C是目前使用最广泛的测定法,用于研究基因组的3D结构并研究其在基因调控,DNA复制和疾病中的作用。但是,Hi-C实验的执行成本很高,并且涉及多个复杂的实验步骤。因此,测量Hi-C数据质量和可重复性的准确方法对于确定是否应在研究中进一步使用输出至关重要。这篇文章的主要工作有:
- 使用真实的和模拟的数据,我们评测了几种最近提出的评估人群Hi-C数据可重复性的方法的性能,包括HiCRep,GenomeDISCO,HiC-Spector和QuASAR-Rep。
- 通过注入设计的受控模拟噪声,证明了在矩阵对上执行简单相关分析的缺陷,并且证明了专门为Hi-C数据开发的方法可产生更好的可重复性度量。
- 展示了如何使用既定的测量方法,以及新颖的方法(例如QuASAR-QC)来鉴定低质量的实验。
- 文章通过改变来自13个细胞系的Hi-C数据中的测序深度,分辨率和噪声水平,评估重复性和质量,描述了Hi-C实验的可重复性和质量评估的最佳实践。
2.Overview of the study
来看一下这项研究的主要流程。图A是噪声注入的Hi-C矩阵的方法的示意图。从真实的Hi-C数据(中心)生成两种类型的噪声:随机连接噪声(右)和基因组距离效应噪声(左)。然后将这三个矩阵混合以生成嘈杂的数据集(下图)。通过更改混合比例,我们可以创建具有不同百分比噪声的数据集。B为了对各种质量控制和可重复性措施的性能进行基准测试,我们从13种细胞类型中汇编了许多Hi-C复品,有生物学重复,还有测序深度,分辨率和噪声水平的不同副本,不同深度是通过下采样得到的。C是研究中评估的四种可重复性方法的基本原理摘要。
3.Comparison of reproducibility measures
图二是改变不同条件几种可重复性测量方法结果的对比。
- 图A曲线显示在33%和66%随机连接噪声配置下,每种噪声注入水平分配给细胞的平均可重复性得分。所有可重复性度量均能够正确地对模拟数据集进行排名。前两种方法对33%和66%随机连接噪声给了不同的可重复性得分,GenomeDISCO对随机连接噪声的敏感性更高,对HiC-Spector表现出相反的行为,另外几种方法对噪声敏感度更低一点。
- 图B同时实验还测试了能否区分来自同一细胞的生物学复制(蓝色),来自不同细胞类型的基质对(非重复红色)和从组合的生物重复样品(伪重复样品紫色)中取样的基质对。期望结果是,伪复制能够得到更高的可重复性得分,非复制对具有最低的可重复性。GenomeDISCO,HiC-Spector,HiCRep和QuASAR-Rep显示了所需的行为:非复制和生物学复制之间的高度分离,以及生物学复制和伪复制之间的相对较小的分离。
- 图C对真实的Hi-C矩阵进行了下采样以减少交互作用,并检查了对所得可重复性分数的影响。降采样的重复对的可再现性表现出对测序深度的依赖性。实验发现HiC-Spector显示出对覆盖水平的依赖性较小。GenomeDISCO和HiCRep在低覆盖率数据集上表现良好,它们对接触矩阵进行了平滑处理。
- 图D调查了四种Hi-C再现性措施是否可以应用于源自非人类基因组的数据,除了第三种方法,其他方法可重复性阈值可能会推广到小得多的果蝇基因组。
4.Effects of resolution on reproducibility measures
图三调查分辨率对可重复性度量的影响。一个Hi-C矩阵分辨率有效地决定三维组织的从数据可观察到的比例:低分辨率矩阵只能揭示的compartments和拓扑结构,而高分辨率矩阵显示其他更精细的尺度结构等染色质环。实验以10-kb,40-kb和500-kb的分辨率生成了真实的和模拟的复制对,并测量了每个复制对的重现性。所有方法可准确测量高分辨率和低分辨率下的重现性。即使是Pearson相关性可以正确地为这些深度排序的数据集排列重复类型。图c进一步研究了覆盖率在三个分辨率级别对生物复制品可重复性得分的影响。HiC-Spector表现出对覆盖率的依赖性较低,得分达到120 kb时达到最大值
5.Quality measures
现在将重点放在评估单个Hi-C矩阵质量的方法上,通过将噪声注入真实的Hi-C数据中来执行此评估。在我们的四种Hi-C重现性措施中,只有一种(QuASAR-QC)提供了一种评估单个基质质量的方法。分析发现QuASAR-QC对噪声和Hi-C矩阵的覆盖范围敏感。我们观察到具有较少相互作用的Hi-C矩阵的QuASAR-QC分数较低,质量控制指标显示出对Hi-C矩阵覆盖范围的可预测依赖。QuASAR-QC度量提供了一个可解释的分数,可以根据噪声水平准确地对模拟数据集进行排名,并将高质量的真实Hi-C实验与高质量的实验区分开。同时发现,TAD检测对于除高噪声水平之外的所有噪声都非常可靠。
6.Conclusion
文章通过改变来自13个细胞系的Hi-C数据中的测序深度,分辨率和噪声水平,评估重复性和质量,描述了Hi-C实验的可重复性和质量评估的最佳实践。