基于随机森林的医学数据缺失值填充方法研究

最新推荐文章于 2024-10-18 11:21:51 发布

人工智能技术小白修炼手册

最新推荐文章于 2024-10-18 11:21:51 发布

阅读量914

点赞数 20

文章标签：人工智能机器学习算法

本文链接：https://blog.csdn.net/m0_46573428/article/details/136098739

版权

背景

本研究旨在解决医学数据中大量缺失值的问题。本研究提出了一种基于随机森林的缺失值填充方法，与传统的众数或中位数填充方法进行了对比。通过分析数据特征的重要性，本研究根据影响程度的排序逐一填充缺失值，从而提高数据的完整性和准确性。实验结果表明，本文方法在相同的模型和环境下，能够获得更好的结果，特别是在目标变量的预测中表现出显著的优势。
医学数据在现代医疗研究和临床实践中起着关键作用。从患者的生理指标到医疗记录，医学数据提供了宝贵的信息，可用于疾病诊断、治疗决策和疫情监测等多个领域。然而，医学数据的完整性和质量对于其有效应用至关重要。在实践中，本研究经常面临一个普遍的问题，即医学数据中存在大量缺失值，这可能会影响到数据的准确性和可用性。
医学数据的缺失值问题是多方面因素的结果。临床记录可能由于人为因素、设备故障或不完整的数据录入而包含缺失值。此外，在医学研究中，某些测量指标可能只在特定情况下可用，导致其他情况下的缺失值。这种数据缺失可能对于建立可靠的预测模型、进行统计分析以及支持决策制定带来挑战。
传统的方法是使用简单的统计手段（如众数、中位数或均值）来填充缺失值，以维护数据的完整性。然而，这种方法忽略了不同特征之间的潜在关联性，可能导致填充后的数据失去了真实性。在医学数据中，特征之间的复杂关系可能对于疾病诊断、治疗效果评估和患者健康预测至关重要。
为了克服这一挑战，本研究提出了一种新的方法，旨在提高医学数据的完整性和质量。本研究将基于随机森林的填充方法应用于医学数据，通过综合考虑特征的重要性和相关性，逐一填充缺失值。这种方法旨在克服传统方法的局限性，以便更好地支持医学研究、临床实践和健康管理。
本研究的主要目标是实现并验证基于随机森林的填充方法是否能够显著提高医学数据的质量，特别是在目标变量的预测任务中。本研究将通过比较本文提出的方法与传统填充方法在相同的模型和环境下的性能，来验证这一方法的有效性。本研究的数据来源于两个公开可用的重症监护病房（ICU）患者电子健康记录（EHR）数据库：MIMIC-IV（Medical Information Mart for Intensive Care）和eICU（electronic Intensive Care Unit）数据库获取的ICU感染性休克患者特征数据。

基于随机森林的方法生成完整数据集

特征重要性分析：首先，通过使用线性回归模型对已知数据进行训练，学习特征之间的关系以及它们与目标变量之间的联系。获取每个特征对目标变量的影响程度。
特征排序：根据特征重要性分数，将特征按照其对目标变量的影响程度进行排序，从最不重要的特征到最重要的特征。
缺失值填充：从排序后的特征列表中，选择具有缺失值的特征，按照特征重要性升序顺序处理。对每个特征，使用随机森林分类或回归模型（依据特征的数据特点），将其他特征的缺失值暂时填充众数，然后预测该特征的缺失值。预测结果作为缺失值的填充。
逐一处理特征：重复步骤3，逐一处理列表中的其他特征，确保所有特征的缺失值都得到了填充。
完整数据集：当处理完所有特征后，得到一个完整的数据集，不再包含缺失值。
传统方法生成完整数据集
缺失值识别：首先，确定数据中包含缺失值的特征。
简单填充：对于每个包含缺失值的特征，使用统计方法——众数，来填充缺失值。
完整数据集：当处理完所有特征后，得到一个填充了缺失值的数据集。
利用两种数据分别预测目标变量
数据准备：分别从 ‘table3.xlsx’ （传统方法填充后的完整数据）， ‘table4.xlsx’（随机森林填充后的完整数据）中加载已填充缺失值的数据，选择特征和目标变量。
数据分割：将数据划分为训练集和测试集。
模型训练：创建随机森林分类器，使用训练集训练模型。
模型预测：对测试集进行预测，得到目标变量的预测值。
性能评估：使用准确性评估模型性能，分别打印分类报告。

结果

[图片]

随机森林填充的数据的预测结果
![[图片](https://img-blog.csdnimg.cn/direct/5b9e56d6209c4dd59f32a8f6d53c1c94.png)
填充众数的数据的预测结果
从上述结果中可以看到在相同的模型和环境下，利用随机森林进行数据填充的预测结果表现出了0.01的准确率提升。尽管这个提升看似微小，但在医学领域，准确率的提升对于诊断和决策支持具有重要的意义。在本此次结果对比中，随机森林方法表现出更好的性能，具体来说，对于目标类别1，随机森林方法提高了召回率和F1-Score，这意味着在识别重要医学事件时，该方法更具优势。随机森林方法的优势在于其能够处理复杂的数据模式和特征之间的非线性关系，这对于医学数据集通常是有益的。因此，它在医学数据处理中具有潜在的优势。

结论

随机森林填充方法的成功应用证明了其作为一种有效的数据填充策略，可以在一定程度上提高医学数据的质量和可靠性。这一发现对于医学研究和临床实践具有重要的意义，因为数据的可靠性直接关系到医学决策和患者的健康。
此外，本研究提出的基于随机森林的数据填充方法为处理医学数据中的大量缺失值问题提供了一个可行的解决方案。这一方法的应用不仅提高了数据质量，还能够增强后续分析和预测任务的可靠性。

参考文献

Rubin, D. B. (1976). Inference and missing data. Biometrika, 63(3), 581-592.
Hastie, T., Tibshirani, R., & Friedman, J. (2009). The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Springer Science & Business Media.
Breiman, L. (2001). Random forests. Machine learning, 45(1), 5-32.
Stekhoven, D. J., & Bühlmann, P. (2012). MissForest—non-parametric missing value imputation for mixed-type data. Bioinformatics, 28(1), 112-118.
Johnson, R., & Zhang, T. (2013). Effective use of domain knowledge in a machine learning framework for remote sensing image classification. International Journal of Remote Sensing, 34(7), 2641-2660.
MIMIC-IV Database. https://mimic-iv.mit.edu/
eICU Collaborative Research Database. https://eicu-crd.mit.edu/