论文解读:CLNN-loop:预测不同细胞系和CTCF结合位点 (CBS) 对类型中CTCF介导的染色质环的深度学习模型

Title:CLNN-loop: A deep learning model to predict CTCF-mediated chromatin loops in the different cell lines and CTCF-binding sites (CBS) pair types

期刊:Bioinformatics

中科院分区:2区

影响因子:6.931

DOI:CLNN-loop: a deep learning model to predict CTCF-mediated chromatin loops in the different cell lines and CTCF-binding sites (CBS) pair types | Bioinformatics | Oxford Academic

文章链接:CLNN-loop: a deep learning model to predict CTCF-mediated chromatin loops in the different cell lines and CTCF-binding sites (CBS) pair types | Bioinformatics | Oxford Academic

Github:GitHub - HaoWuLab-Bioinformatics/CLNN-loop: CLNN-loop: A deep learning model to predict chromatin loops in the different cell lines and CTCF-binding sites (CBS) pair types

服务器:CLNN

发表时间:2022年8月23日

目录

摘要

1 背景

2 数据集

3 方法

3.1 特征编码

3.1.1 RCKmer

3.1.2 CPSE

3.1.3 NPSE

3.1.4 CPSTNPss

3.1.5 CPSTNPds

4 深度学习框架

5. 结果

6 论文实验相关

6.1 模型优化

6.2 十倍交叉验证

6.3 独立测试

6.4 与前人做的结果比较

6.5 新细胞验证模型

6.6 不同算法的比较

7 讨论

8 结论


摘要

       动机:三维 (3D) 基因组组织在基因调控和疾病机制中至关重要。先前的研究表明,CTCF介导的染色质环对于研究细胞的3D结构至关重要。尽管已经开发了各种实验技术来检测染色质环,但发现它们既耗时又昂贵。如今,各种基于序列的计算方法可以捕获3D基因组组织的重要特征并帮助预测染色质环。然而,这些方法在预测染色质环方面性能低下,泛化能力差。

       结果:在这里,我们提出了一种新的深度学习模型,称为CLNN-loop,通过融合多个基于序列的特征来预测不同细胞系和CTCF结合位点 (CBS) 对类型中的染色质环。基于前人研究中的数据集进行的一系列检查分析表明,CLNN-loop 具有令人满意的性能,在预测染色质环方面优于现有方法。此外,我们应用 SHAP 框架来解释不同模型的预测,发现CTCF基序和序列保守性是不同细胞系和CBS对类型中染色质环的重要标志。

1 背景

     三维基因组组织在基因调控DNA 复制中起着关键作用、进化和疾病机制。随着高通量染色体构象捕获技术(Hi-C)的发展,Rao et al. (2014) 发现结构和功能单元染色质环以 1 kb 的分辨率直接调节基因表达。先前的研究表明,染色质环由结构蛋白CCCTC结合因子 (CTCF) 和内聚素通过挤压介导,其中CTCF基序在两个位点以会聚方向与特定的非回文基序结合并充当环锚。

     在过去的几年里,各种实验技术被用于检测染色质环,如高通量染色体构型捕获(Hi-C) ,染色质与配对端标记的相互作用分析(ChIA-PET) 和捕获Hi-C 。然而,这些技术不仅在某些情况下不适用,而且耗时和昂贵。为了解决这些问题,已经提出了几种计算方法来预测染色质环。其中一些方法,如RIPPLE、TargetFinder、3DepiLoop、CTCF-MP、Lollipop和Peakachu依赖于机器学习模型,而其他方法则利用先进的深度学习方法构建有效的预测模型,如DeepTACT、SPEID和deepC。

      尽管这些计算方法促进了染色质环的预测,但它们需要大量的功能基因组信号,这在实践中难以实现。因此,吕等人。 (2021) 提出了一种名为 Deep-loop 的深度学习模型,仅使用序列来预测染色质环。然而,他们的方法中的几个缺点仍有待解决首先,他们只使用了卷积神经网络(CNN),因此 Deep-loop 无法捕捉特征的顺序关系。第二个是它们的特定位置特征编码方案在不同 CBS 对的染色质环中显示出相反的分布。此外,他们只评估了四种特征编码方案,因此选择的特征可能不是最丰富的。总体而言,Deep-loop 的性能在某些情况下并不令人满意。特别是难以满足预测不同细胞系和CBS对类型中染色质环的要求。

    因此,我们提出了一种新的深度学习框架,称为 CLNN-loop(一种基于 CNN 和长短期记忆 (LSTM) 的神经网络),以准确预测CTCF介导的染色质环。具体来说,我们利用双向 LSTM 来捕获特征的顺序关系。此外,我们评估了 31 个基于序列的特征并确定了 5 个信息量最大的特征,并且我们根据染色质环的多方向特征改进了位置特异性特征。我们的主要贡献如下:(i)我们改进了位置评分函数(PSF)、基于单链的位置特异性三核苷酸倾向(PSTNPss)和基于双链的位置特异性三核苷酸倾向(PSTNPds)的性能:在预测不同细胞系和 CBS 对类型中的染色质环时染色质环的特征。 (ii) 我们确定了预测染色质环的五个最有用的特征。 (iii) 我们提出了一种新模型,称为 CLNN-loop,以准确预测相同细胞系/CBS 对类型中 CTCF

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值