StackTADB:一种基于堆叠的集成学习模型,用于准确预测果蝇拓扑关联域 (TAD) 的边界

期刊:BIB

论文发表时间:2022.1

代码数据集:https://github.com/HaoWuLab-Bioinformatics/StackTADB/blob/main/data%20prepare.py

一、摘要

染色体由许多不同的染色质结构域组成,称为拓扑结构域或拓扑关联结构域 (TAD)。这些结构域在不同细胞类型中是稳定的,并且在物种间高度保守,因此这些染色质结构域被认为是染色体折叠的基本单位,被认为是染色体组织中重要的二级结构。然而,由于 Hi-C 数据或实验的高成本和低分辨率,TAD 边界的识别仍然是一个巨大的挑战。在这项研究中,我们提出了一种新的集成学习框架,称为 StackTADB,用于预测 TAD 的边界。 StackTADB 集成了四种基本分类器,包括随机森林、逻辑回归、KNearestNeighbor 和支持向量机。从前人研究中对数据集的一系列检查分析得出,StackTADB在AUC、Accuracy、MCC、Precision、Recall和F1 score这6个指标上表现最优,优于现有方法.此外,多个特征的性能比较表明,基于 Kmers 的特征在预测水果的 TADs 边界中起着至关重要的作用,我们还应用 SHapley Additive exPlanations (SHAP) 框架来解释 StackTADB 的预测以识别基于 Kmers 的功能至关重要的原因。实验结果表明,与BEAF-32基序匹配的子序列在预测TADs的边界方面起着至关重要的作用。

二、数据集

       本研究基于 Henderson 等人创建的数据集。 (2019)。它由一系列单热编码的 DNA 序列组成,其中除了匹配的字母条目为 1 之外,所有 0 的四个条目的每个二进制向量代表一个碱基。 [1, 0, 0, 0], [0, 1, 0, 0], [0, 0, 1, 0] 和 [0, 0, 0, 1] 用于编码 A, T , G 和 C , 分别 。该数据集共包含 15 057 个正序列和 15 070 个负序列,每个序列由 1000 个碱基组成。我们随机选择80%的数据集作为训练集,其中包含12 077个正序列和12 024个负序列,其余20%的数据集作为独立测试集,包含2980个正序列和3046个负序列.

三、方法—特征编码

      最近,一些研究表明,一些序列编码方案在预测三维基因组结构方面非常有效,包括Kmers、核苷酸对谱编码(NPSE)、自然向量(NV)、错配k元组(Mismatch)、子序列谱 (SP)、位置特异性评分矩阵 (PSSM) 和假二核苷酸组成 (PseDNC)。

Kmers 反映短程序列顺序效应和潜在基序的频率;

mismatch k-tuple 表示连续的ktuple允许有错误;

NPSE 考虑所有可能的 k 间隔核苷酸对;

PseDNC分析核苷酸序列的频率,综合考虑DNA序列的局部和全局信息;

Subsequence Profile 考虑了间断和不连续的 K-mers,

PSSM 反映了序列的位置特异性。

因此,我们采用这些序列编码方案来编码 DNA 序列并对提取的特征进行归一化。以下部分描述了这七种编码方案。

四、堆叠集成学习

      存在三种不同的集成学习策略,包括 boosting、bagging 和 stacking 。在这项研究中,我们应用堆叠策略将随机森林、逻辑回归和 KNN 集成为基分类器(即第一级),并选择 SVM 作为元分类器(即第二级)。

流程图

流程图解释:Stacking ensemble 策略的过程。在每次交叉验证中,三个弱​​分类器对训练集进行5倍交叉验证,并使用组合的预测结果和标签作为二级分类器的训练集。 5折交叉验证也会每次对测试集进行预测,得到预测结果和标签的平均值作为第二级分类器的测试集,然后从第二级分类器得到新测试集的预测结果级别分类器作为模型的最终预测结果。

五、结论

在这项研究中,我们提出了一种新的基于堆叠的集成学习模型,用于从 DNA 序列数据中预测 TAD 的边界,称为 StackTADB。我们首先评估六个传统的基于特征的模型、三个深度学习模型和 StackTADB 的性能。结果表明,我们的模型比现有方法表现更好。然后我们评估了 11 个模型在不同数据量下的性能,结果表明 StackTADB 比传统的基于特征的模型和之前提出的深度学习模型更稳健。此外,我们发现基于 Kmers 的特征通过比较多个个体特征和特征集的性能,在预测果蝇中 TAD 的边界方面发挥着重要作用。我们还应用 SHAP 框架来解释 StackTADB 的预测,发现与 BEAF-32 基序匹配的子序列在预测果蝇 TAD 的边界方面起着至关重要的作用,这与划分的果蝇中绝大多数 TAD 一致。通过绝缘体复合物 BEAF32/CP190 或 BEAF-32/Chromator。希望我们的模型对旨在预测 TADs 边界的研究有所帮助,并且本研究提出的使用 BEAF32 基序预测果蝇 TADs 边界的方法也可以应用于未来的工作。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值