4mC-RF: Improving the prediction of 4mC sites using composition and position relative features and

4mC-RF是一种基于序列的预测方法，利用统计矩和位置、组成特征来识别4mC甲基胞嘧啶位点。在C-Elegans、D-melanogaster、E-coli和Geobacterpickeringii等数据集上，通过10倍交叉验证和独立测试，4mC-RF模型展示了高准确性，优于其他现有方法，其随机森林算法和特征编码方式提高了预测精度，有望成为生物标志物鉴定和疾病早期诊断的有力工具。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

标题：4mC-RF:使用组成和位置相关特征和统计矩改进4mC位点的预测

期刊:ELSEVIER

文章链接：https://www.sciencedirect.com/science/article/abs/pii/S0003269721002864?via%3Dihub

一、摘要

预测4mc位点是基于序列的预测器，即4mc-RF。用于通过结合统计矩以及位置和组成依赖特征来识别4 mC位点。计算基于相对和绝对位置的特征以提取最佳特征。

二、方法与数据集

数据集：

C-Elegans：1554阳性样本，1554个阴性样本。

D-melanogaster：1769阳性样本，1769阴性样本。

E-coli：388个阳性样本，388个阴性样本。

Geobacter pickeringii：569个阳性样本，569个阴性样本。

方法：

统计矩阵的计算：使用统计矩对收集的数据集进行定量分析。不同阶的矩表示数据的不同属性。这些时刻描述了数据大小的评估和定位。对于我们的预测模型，计算某些矩，如原始矩、中心矩和哈恩矩。Raw和Hahn矩是尺度和位置变量，而中心矩是尺度和方向变量。计算原始矩和中心矩以获得关于数据集的平均值、不对称性和方差的信息。使用定义哈恩多项式的矩来计算哈恩矩，以保持序列顺序信息。

本文特点：特征编码方式不一样，采取了矩阵的形式从而提高了准确度，看上图就知道。

三、结果

10倍交叉验证结果：

独立测试结果：

四、结论

在研究中，使用逐步方法和统计矩开发了一种预测4mC甲基胞嘧啶位点的有效机器学习模型。为了预测4 mC位点，提出了一个新的模型并命名为4mC-RF，该模型基于几个相对和绝对位置变量特征。此外，使用统计矩计算频率向量AAPIV、RPIRM、PRIM和RAAPIV以降低维度。当使用这种方法时，测量序列的组成和位置相关特征用于预测，因为DNA序列的性质严重依赖于这些位置和组成特征。此外，一个高效的机器学习算法，如随机森林，被用来训练我们的模型，而以前的预测使用其他模型，包括支持向量机。严格的测试技术，如刀切、交叉验证和独立集测试被用来评估所提出的模型的有效性。通过使用交叉验证，该模型与其他现有模型相比表现最佳，总体准确性最高，Jack-knife测试得出MCC 0.90的准确性为95%。为了进行公平的比较，选择了三种现有的4mC场地预测方法。ROC图的图示说明了与图14中现有方法的性能比较。简而言之，所提出的预测器获得了最高的预测精度，使其成为疾病早期阶段药物发现和诊断中潜在的有用工具。该模型的稳健性也使其成为鉴定4mC相关疾病中生物标志物的潜在工具。