标题:4mC-RF:使用组成和位置相关特征和统计矩改进4mC位点的预测
期刊:ELSEVIER
文章链接:https://www.sciencedirect.com/science/article/abs/pii/S0003269721002864?via%3Dihub
一、摘要
预测4mc位点是基于序列的预测器,即4mc-RF。用于通过结合统计矩以及位置和组成依赖特征来识别4 mC位点。计算基于相对和绝对位置的特征以提取最佳特征。
二、方法与数据集
数据集:
C-Elegans:1554阳性样本,1554个阴性样本。
D-melanogaster:1769阳性样本,1769阴性样本。
E-coli:388个阳性样本,388个阴性样本。
Geobacter pickeringii:569个阳性样本,569个阴性样本。
方法:
统计矩阵的计算:使用统计矩对收集的数据集进行定量分析。不同阶的矩表示数据的不同属性。这些时刻描述了数据大小的评估和定位。对于我们的预测模型,计算某些矩,如原始矩、中心矩和哈恩矩。Raw和Hahn矩是尺度和位置变量,而中心矩是尺度和方向变量。计算原始矩和中心矩以获得关于数据集的平均值、不对称性和方差的信息。使用定义哈恩多项式的矩来计算哈恩矩,以保持序列顺序信息。
本文特点:特征编码方式不一样,采取了矩阵的形式从而提高了准确度,看上图就知道。
三、结果
10倍交叉验证结果:
独立测试结果:
四、结论
在研究中,使用逐步方法和统计矩开发了一种预测4mC甲基胞嘧啶位点的有效机器学习模型。为了预测4 mC位点,提出了一个新的模型并命名为4mC-RF,该模型基于几个相对和绝对位置变量特征。此外,使用统计矩计算频率向量AAPIV、RPIRM、PRIM和RAAPIV以降低维度。当使用这种方法时,测量序列的组成和位置相关特征用于预测,因为DNA序列的性质严重依赖于这些位置和组成特征。此外,一个高效的机器学习算法,如随机森林,被用来训练我们的模型,而以前的预测使用其他模型,包括支持向量机。严格的测试技术,如刀切、交叉验证和独立集测试被用来评估所提出的模型的有效性。通过使用交叉验证,该模型与其他现有模型相比表现最佳,总体准确性最高,Jack-knife测试得出MCC 0.90的准确性为95%。为了进行公平的比较,选择了三种现有的4mC场地预测方法。ROC图的图示说明了与图14中现有方法的性能比较。简而言之,所提出的预测器获得了最高的预测精度,使其成为疾病早期阶段药物发现和诊断中潜在的有用工具。该模型的稳健性也使其成为鉴定4mC相关疾病中生物标志物的潜在工具。