4mC-RF: Improving the prediction of 4mC sites using composition and position relative features and

4mC-RF是一种基于序列的预测方法,利用统计矩和位置、组成特征来识别4mC甲基胞嘧啶位点。在C-Elegans、D-melanogaster、E-coli和Geobacterpickeringii等数据集上,通过10倍交叉验证和独立测试,4mC-RF模型展示了高准确性,优于其他现有方法,其随机森林算法和特征编码方式提高了预测精度,有望成为生物标志物鉴定和疾病早期诊断的有力工具。
摘要由CSDN通过智能技术生成

标题:4mC-RF:使用组成和位置相关特征和统计矩改进4mC位点的预测

期刊:ELSEVIER

文章链接:https://www.sciencedirect.com/science/article/abs/pii/S0003269721002864?via%3Dihub

一、摘要

预测4mc位点是基于序列的预测器,即4mc-RF。用于通过结合统计矩以及位置和组成依赖特征来识别4 mC位点。计算基于相对和绝对位置的特征以提取最佳特征。

二、方法与数据集

数据集:

C-Elegans:1554阳性样本,1554个阴性样本。

D-melanogaster:1769阳性样本,1769阴性样本。

E-coli:388个阳性样本,388个阴性样本。

Geobacter pickeringii:569个阳性样本,569个阴性样本。

方法:

统计矩阵的计算:使用统计矩对收集的数据集进行定量分析。不同阶的矩表示数据的不同属性。这些时刻描述了数据大小的评估和定位。对于我们的预测模型,计算某些矩,如原始矩、中心矩和哈恩矩。Raw和Hahn矩是尺度和位置变量,而中心矩是尺度和方向变量。计算原始矩和中心矩以获得关于数据集的平均值、不对称性和方差的信息。使用定义哈恩多项式的矩来计算哈恩矩,以保持序列顺序信息。

 

本文特点:特征编码方式不一样,采取了矩阵的形式从而提高了准确度,看上图就知道。

三、结果

10倍交叉验证结果:

独立测试结果:

 四、结论

      在研究中,使用逐步方法和统计矩开发了一种预测4mC甲基胞嘧啶位点的有效机器学习模型。为了预测4 mC位点,提出了一个新的模型并命名为4mC-RF,该模型基于几个相对和绝对位置变量特征。此外,使用统计矩计算频率向量AAPIV、RPIRM、PRIM和RAAPIV以降低维度。当使用这种方法时,测量序列的组成和位置相关特征用于预测,因为DNA序列的性质严重依赖于这些位置和组成特征。此外,一个高效的机器学习算法,如随机森林,被用来训练我们的模型,而以前的预测使用其他模型,包括支持向量机。严格的测试技术,如刀切、交叉验证和独立集测试被用来评估所提出的模型的有效性。通过使用交叉验证,该模型与其他现有模型相比表现最佳,总体准确性最高,Jack-knife测试得出MCC 0.90的准确性为95%。为了进行公平的比较,选择了三种现有的4mC场地预测方法。ROC图的图示说明了与图14中现有方法的性能比较。简而言之,所提出的预测器获得了最高的预测精度,使其成为疾病早期阶段药物发现和诊断中潜在的有用工具。该模型的稳健性也使其成为鉴定4mC相关疾病中生物标志物的潜在工具。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值