LanceOtron: a deep learning peak caller for ATAC-seq, ChIP-seq, and DNase-seq

摘要

ATAC-seq、ChIP-seq 和 DNase-seq 是基因组识别中重要的DNA编码元素,这些元素在分析覆盖轨迹的模拟信号中表现为峰值。本文提出了一个基于深度学习的峰值调⽤框架 LanceOtron,使用深度学习图像识别的方法来识别峰值形状,来进行富集测量。

生物学相关知识

ChIP-seq可以绘制基因调控中蛋白质结合或染色质修饰的区域。
ATAC-seq或DNase-seq可以提供基因组功能区域的细胞类型特异性图谱。
从这些分析中准确提取具有生物学意义的数据为当前的功能基因组学研究奠定了基础,对于理解健康和疾病中的基因调控至关重要。
对来自ATAC-seq、ChIP-seq 和 DNase-seq 的数据通常用以下方法处理:
对富集的的 DNA 片段进行测序,与基因组对齐,并记录富含这些片段的区域。这些数据显⽰为跨越基因组坐标的模拟信号轨迹,轨迹中的峰值往往是一些重要位点。

现有问题

虽然可以使用泊松分布区分噪声,但仍无法很好的模拟实际噪声。可以使用工具,通过使用匹配的负控制(也称为“输入轨迹”)来计算背景噪声水平来减少误差,但会增加实验的时间和成本。
采用高通量目视检查仍存在许多错误的峰值调用。
滥用统计数据无法复现已经发表的研究结果夸大统计测试结果、将意义和效果混为一谈,容易使得peak caller陷入陷阱。

方法

总体思想是通过计算每个被评估区域的大量富集指标,并将这些指标与可以识别峰形状特征的CNN网络结合。

总体结构

总体结构如图1。
Alt

图1

  • 该网络使用了从一个峰值中与其周围相比的最大重叠读取数(染色体宽度以及10千碱基(kb)到100 kb区域以10 kb的增量进行)的富集测量
  • 在逻辑回归模型中使用测量值,产生富集分数
  • 在以每个峰值为中心的2 kb窗口上对信号的碱基对分辨率视图进行编码并输入到CNN中;CNN使用所有2000个点的重叠读取数之间的关系,即形状,来确定该区域是否是由生物事件或噪声引起的峰值
  • 多层感知器将来自CNN和逻辑回归模型的输出以及11个局部富集测量值相结合,以产生一个称为峰值分数的总体峰值质量度量

三个模块

LanceOtron 具有三个主要模块,每个模块都将覆盖⽂件作为输⼊,并返回具有相关分数的丰富区域作为输出。

  1. Find and Score Peaks,首先将富集区域标记为候选峰,然后使用LanceOtron 的深度学习模型对其进行评分
  2. Find and Score Peaks with Inputs 执行与第⼀个模块相同的功能,但额外计算基于区域的 p 值与浓缩相比
  3. Score Peaks,它不会找到候选峰,而是神经网络对作为附加⽂件提供的基因组位置进行评分

前两个模块,Find and Score Peaks 和 Find and Score Peaks with Inputs,采⽤ LanceOtron 的候选峰值调用算法。这是通过应用 25 路富集测试来实现的,该测试由不同的平滑窗口阈值组合(方法)组成。这允许以各种方式将⼀个区域视为富集,⽬的是⽣成⼀个包含所有可能感兴趣区域的超完整集,以呈现给神经网络进行评估。
最后⼀个模块 Score Peaks 使用LanceOtron 的神经网络组件与候选峰标识符隔离。这允许用户分析来自其他工具、出版物或数据库的peak calling质量。

实验

转录因子ChIP-seq

使用来自于脾原代细胞中的 CTCF,标记明显是峰值或噪声的区域,产生了 109 个⼈⼯管理的峰值注释。
当不使用输⼊控制轨道时,LanceOtron 和 MACS2 都达到了完美的灵敏度,检测到数据集中所有标记的峰,但 MACS2 的选择性和整体 F1 分数要低得多。
在输⼊方面,LanceOtron 在精度、召回率/灵敏度、选择性和 F1 分数方面优于MACS2。比较峰值呼叫类型,没有输⼊的 LanceOtron 实际上比所有指标都有输⼊的 MACS2 获得了更⾼的分数。

组蛋白ChIP-seq

使用了HAP-1 细胞中的H3K27ac ,MG63 细胞 中的 H3K4me3。对于 H3K27ac,最高灵敏度是通过三个峰值调⽤实现的:LanceOtron,有输⼊和无输⼊,MACS2 没
有输⼊。
LanceOtron 在精度、选择性和 F1 分数的其余指标上优于 MACS2。 LanceOtron 在峰值调用上,无论有无输⼊都实现了相同的性能,突出了其深度神经网络的功能。
在H3K4me3 数据集中,具有输入的 LanceOtron 和 MACS2 之间的特异性相等,并且 LanceOtron 在其余指标的所有峰值调⽤类型中均优于 MACS2。

ATAC-seq 和 DNase-seq

ATAC-seq 的内部数据包括来⾃ ENCODE 的 MCF-7 细胞系中的区域。
LanceOtron 在所有指标上都优于 MACS2。
DNase-seq 数据来自 ENCODE的 A549 细胞系。
MACS2在召回/敏感度方面优于LanceOtron,但假阳性率非常高。在精度、灵敏度和 F1 得分方面,LanceOtron优于 MACS2。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值