论文解读：DNAgenie: accurate prediction of DNA-type-specific binding residues in protein sequences

最新推荐文章于 2023-03-14 16:28:49 发布

wangpan007

最新推荐文章于 2023-03-14 16:28:49 发布

阅读量346

点赞数

分类专栏：生信论文文章标签：算法深度学习机器学习

本文链接：https://blog.csdn.net/wangpan007/article/details/120236394

版权

生信论文专栏收录该内容

19 篇文章 45 订阅

订阅专栏

DNAgenie: accurate prediction of DNA-type-specific binding residues in protein sequences

论文导读
1. 论文基本信息
2. 生物背景
- 2.1 研究问题
3. 实验数据
4. 实验方法
- 4.1 模型
- 4.2 A-DNA、B-DNA和ssDNA相互作用指标
5. 结果
6. 总结

论文导读

1. 论文基本信息

一作单位：信阳师范学院计算机与信息技术学院
发表期刊： BRIEFINGS IN BIOINFORMATICS(BIB)
期刊影响因子及文章数量：
在这里插入图片描述
论文链接：https://academic.oup.com/bib/advance-article-abstract/doi/10.1093/bib/bbab336/6355416?redirectedFrom=fulltext
论文网页和数据链接：http://biomine.cs.vcu.edu/servers/DNAgenie/

2. 生物背景

2.1 研究问题

预测蛋白质序列中氨基酸的DNA绑定位点的类型，其原理是在DNA-蛋白质复合物（蛋白质链）中蛋白质在DNA上识别特定的位点，包括以下四种类型：

非绑定位点：不是作用位点
ADNA-binding：右旋双螺旋，其碱基对的空间排列不同
BDNA-binding：右旋双螺旋，其碱基对的空间排列不同
ssDNA binding：单链DNA

作用原理如下图所示：

在这里插入图片描述

计算方法的意义：
采用生物实验的方法每种蛋白质-脱氧核糖核酸复合物的结构的识别需要148 000美元，而计算的方法不但解决时间而且节约成本。

3. 实验数据

在这里插入图片描述

在这里插入图片描述
**最后：**通过使用噪声将这些数据分为训练和测试数据集，将所得DNA结合和非DNA结合蛋白的组合组的DNA结合和非DNA结合蛋白的相似性聚集在==30％==相似之处。我们将70％的生成的集群放入训练数据集中，我们使用来计算和优化机器学习模型，并且剩下的30％进入测试数据集，得到下表的数据：

在这里插入图片描述

4. 实验方法

4.1 模型

Dnagenie采用定制设计的双层架构，其中第一层中的机器学习（ML）模型产生的预测在第二层中精制，以减少交叉预测（图1）。
在这里插入图片描述
DNAgenie的第二层所使用的特性。特性是根据整个窗口大小= 5(通常是窗口内5个值的平均值和标准偏差)的值来计算的。

4.2 A-DNA、B-DNA和ssDNA相互作用指标

制定三种新的相对氨基酸倾态（RAAP）指数，其量化了给定氨基酸与A-DNA，B-DNA和SSDNA相互作用的可能性。

首先，我们使用组合分析器[76]通过将相应的DNA结合残基对从训练数据集收集的非DNA结合残基对比对应的DNA结合残基来计算特定DNA型的相对氨基酸倾向。
接下来，我们通过首先将它们缩放到单元范围并基于DNA类型的排名平均调整缩放分数来规范三种DNA类型的这些拟议。我们列出了表1中的生成索引。

在这里插入图片描述

5. 结果

5.1 对A-DNA，B-DNA和SSDNA结合残基预测的比较评估

测试数据集与CrossValidation设置中使用的培训数据共享低（<30％）序列相似性，以设计和优化Dnagenie。设计期间测试集的低相似性和排除。表2量化了Dnagenie的预测性能，并将其与基线和四种替代品进行比较。结果表明，DNAGENIE在三种DNA类型中提供了非常准确的预测，AUC在0.88（BDNA）之间的AUC和0.91（SSDNA）之间。
DNAGENIE，随机基线的预测性能和DNA结合残留物的四个最先进的残基预测因子产生的DNA型预测。我们通过在从测试数据集中随机选择的50％蛋白质对随机选择的50％蛋白进行了10个测试来评估预测质量的稳健性。我们报告了相应的平均值和标准偏差。 DNAgenie与其他五个预测因子中的每一个之间的预测性能差异的统计学意义用TTEST为与Anderson-Darling测试测试的正常测量进行量化;否则我们使用Wilcoxon等级和测试。 ++和+ +意味着Dnagenie分别在p值<0.01和p值<0.05时明显更好; =意味着差异不显着（p值≥0.05）。敏感性在5,10％和20％FPR中报告。粗体字体识别给定度量和DNA类型的最准确的预测器。
在这里插入图片描述

在这里插入图片描述
cross-prediction曲线计算在其他类型的dna结合蛋白残留(面板B),残留的cross-prediction曲线计算结合的蛋白质,RNA和小分子(面板C), over-prediction曲线计算的不具约束力的残留物(面板D)进行评估的测试数据集。预测因子用颜色编码，实线、虚线和虚线分别对应于A-DNA、B-DNA和ssDNA结合残基的预测。

5.2 分析和评价交叉预测

从测试数据集中随机选择的50％蛋白质对随机选择的50％蛋白进行了10个测试来评估对不同数据集的鲁棒性。我们报告了相应的平均值和标准偏差。 DNAgenie与其他五个预测因子之间的预测性能差异的统计学意义用T检验量化了与Anderson-Darling试验测试的正常测量;否则我们使用Wilcoxon等级和测试。
在这里插入图片描述
评估DNAGENIE，随机基线和DNA类别增强预测由DNA结合残留物的四个最新的残基预测因子产生的DNAGenie和DNA类别增强预测的评估。 Aucpcs和较高比值值的较低值表示更准确的预测（较低的交叉预测）。我们通过在从测试数据集中随机选择的50％蛋白质对随机选择的50％蛋白进行了10个测试来评估对不同数据集的鲁棒性。我们报告了相应的平均值和标准偏差。 DNAgenie与其他五个预测因子之间的预测性能差异的统计学意义用T检验量化了与Anderson-Darling试验测试的正常测量;否则我们使用Wilcoxon等级和测试。

5.3 RNA结合蛋白交叉预测的评估

在这里插入图片描述
该图展示出了最近公开的RNA-T基准数据集，即天然RNA结合残基的DNA，B-DNA和SSDNA残基的预测速率。当考虑A-DNA结合残留物的预测，靶DNA，Hybridnap和BendN +的交叉预测超过15％的RNA结合残基作为A-DNA结合残基，而DNAPRED和DNAGENIE产生约11.5的最低/最佳速率分别为7.1％。平均而言，跨越三种DNA类型，DNAGENIE获得10.2％的最低交叉预测率，而杂交地的16.3％相比，DNAPRED的17.1％，TargetDNA的17.9％，21.5％用于BINDN+。

5.4 dsDNA和ssDNA结合蛋白预测的比较评估

应用DNAgenie产生的A-DNA，B-DNA和SSDNA结合残基的残留水平预测，以区分在试验数据集中的DNA结合蛋白的SSDNA和DSDNA合作伙伴之间。通过计算预测的SSDNA结合残基的残留水平施力的平均值来计算在蛋白质水平的SSDNA结合的倾向。使用一个减去A-DNA和BDNA结合残基的施力的平均值，以量化DSDNA结合的蛋白质水平倾向。
在这里插入图片描述

在这里插入图片描述

5.5 案例分析

DNAGENIE在一个测试蛋白，人DNA甲基转移酶3a（DNMT3A）中产生的DNAGENIE产生的盲/德诺维预测。该蛋白质与训练蛋白质的相似性低4.9％，即，用喷射测量的所有训练蛋白的最大成对相似。DNAGENIE与AUC表示的预测质量类似于测试数据集上的平均AUC，代表平均/典型案例。图3示出了具有B-DNA的复合物的3D结构，其中具有DNAGENIE预测的颜色编码注释。正确的预测

在这里插入图片描述

5.6 人类蛋白质组中A-DNA、B-DNA和SS-DNA结合残基和蛋白的预测和分析

数据：从Uniprot参考人蛋白质组中对20350个蛋白进行预测。首先，我们收集来自EnPD的DNA结合蛋白，核酸结合蛋白的最大数据库[80]。鉴于蛋白质序列的自然变化，如果它们与来自ENPD的任何人DNA结合蛋白共享超过90％相似性（用BRAST定量），则将人蛋白从UNIPROT的参考蛋白质中注释为DNA结合。这导致2062实验带有的DNA结合蛋白的列表。其次，我们独立地使用PFAM结构域[81]注释DNA结合蛋白。我们手动分析人群蛋白质组中的PFAM结构域，发现672个与DNA相互作用的结构域。我们鉴定了2218个具有这些结构域中的至少一个的人蛋白质。第三，我们将2062个DNA结合蛋白与eNPD和具有PFAM的DNAbinding结构域的2218个蛋白质组合，以建立最终组的2763次验证的DNabinding蛋白。接下来，我们在低5％FPR处使用由DNAGENIE产生的推定的A-DNA，B-DNA和SSDNA结合残基以鉴定推定的DNA结合蛋白。我们将该残留水平校准蛋白质水平预测转化以产生类似于已验证的DNA结合蛋白的数量的推定DNA结合蛋白的数量。

在这里插入图片描述
DNAgenie产生的新推定的DNA结合蛋白中显着富集的细胞组分。*鉴定与在已验证的DNA结合蛋白中显着富集的组分共同的注释。该图是由具有给定富集注释（蓝色条形）的蛋白质的数量来分类。用Panther进行分析，其中使用Fisher的测试计算P值，使用发现速率校正，最小折叠富集被设定为2，并且使用15个或更多次出现的注释来确保统计的鲁棒性。

6. 总结

目前的DNA型无症溶液缺乏两个方面：将DNA结合残基与其他合作伙伴相互作用的残留物（即，它们交叉预测与RNA，蛋白质和小分子相互作用的残留物）;并且能够预测与特定DNA类型的相互作用。 Dnagenie为两种挑战提供了第一和准确的解决方案，因为我们通过广泛的比较实证测试和应用于人类蛋白质组。重要的是，DNAGENIE不依赖于序列相似性或同源性，这意味着它为几乎任何蛋白质序列提供了准确的结果。这在测试数据集上的结果是显而易见的，这模拟了DNAGENIE用于预测与其训练蛋白共享低相似性（<30％）的序列的场景。