题目:ESPDHot: An Effective Machine Learning-Based Approach for Predicting Protein–DNA Interaction Hotspots
链接:https://doi.org/10.1021/acs.jcim.3c02011
ESPDHot:一种基于机器学习的有效预测蛋白质-DNA 相互作用热点的方法
蛋白质-DNA 相互作用对于各种细胞过程至关重要。精确识别蛋白质-DNA相互作用的热点残基对于揭示蛋白质-DNA识别的复杂机制以及为蛋白质工程提供重要指导具有重要意义。针对蛋白质-DNA相互作用热点,本文提出了一种基于堆叠集成机器学习框架的有效预测方法ESPDHot。这里,突变导致结合自由能变化(ΔΔG)超过2kcal/mol的界面残基被定义为热点。针对数据集不平衡的问题,采用过采样技术自适应合成采样(ADASYN)来综合生成新的少数样本,从而纠正数据不平衡。对于分子特征,除了传统的特征外,我们引入了三种新的特征类型,包括我们提出的残基界面偏好、残基波动动力学特征和协同进化特征。将 Boruta 方法与我们之前开发的随机分组策略相结合,我们获得了一组最佳特征。最后,构建一个堆叠分类器来输出预测结果,该分类器集成了三种经典预测器,支持向量机(SVM)、XGBoost和人工神经网络(ANN)作为第一层,逻辑回归(LR)算法作为第二层。值得注意的是,ESPDHot 的性能优于当前最先进的预测器,在独立测试数据集上实现了优异的性能,F1、MCC 和 AUC 分别达到 0.571、0.516 和 0.870。
================================
以上是我们分享的一些经验或者文章的搬运,或有不足,欢迎大家指出!
如有侵权,请联系我立马删除!
详细内容(文章题目、文章链接、附件下载)可在微 信 公 众 号:原子与分子模拟获取,欢迎大家关注。