论文 | An Efficient Convolutional Neural Network for Coronary Heart Disease Prediction

本文提出了一种使用LASSO预处理和卷积神经网络(CNN)的模型,用于解决冠心病预测中的类不平衡问题。通过LASSO进行特征选择,CNN进行分类,实现在NHANES数据集上77%的冠心病分类准确性和81.8%的测试准确率。研究显示,提出的LASSO-CNN架构优于传统机器学习模型,并对数据不平衡具有一定的鲁棒性。
摘要由CSDN通过智能技术生成

论文信息

TitleAn Efficient Convolutional Neural Network for Coronary Heart Disease Prediction
Journal : Expert Systems with Applications
Year: 2020
Author : Aniruddha Dutta, Tamal Batabyal, Meheli Basu, Scott T. Acton

ABSTRACT

问题

目前大多数的机器学习模型对类不平衡数据很敏感,即使调整了特定类的权重。

解决

本研究提出一种带卷积层的神经网络模型,对类不平衡的临床数据 - 冠心病进行分类。

方法

  • 特征选择:使用基于最小绝对收缩和选择算子(LASSO)进行特征权重评估,并基于多数投票法对重要特征识别。

  • 模型训练:模型训练过程中,通过使用 fully connected layer 来均质化重要的特征,这是将层的输出传递到连续卷积层之前的关键步骤。

  • 此外还提出每个 epoch 的 training schedule,类似于模拟退火过程,以提高分类精度。

效果

NHANES 数据集存在较高的类别不平衡问题,本文提出的CNN体系结构在正确分类存在冠心病方面的分类能力为77%,在测试数据上准确分类冠心病病例的能力为81.8%,占总数据集的85.70%。
这一结果表明,本文建议的体系结构可以推广到具有类似特征和不平衡顺序的医疗保健领域的其他研究。

1. Introduction

Our architecture is simple in design, elegant in concept, sophisticated in training schedule, effective in outcome with far-reaching applicability in problems with unbalanced datasets.

Contributions:

  • our model uses a variable elimination technique using LASSO and feature voting as preprocessing steps;
  • we leverage a shallow neural network with convolutional layers, which improves CHD prediction rates compared to existing models with comparable subjects (the ‘shallowness’ is dictated by the scarcity of class-specific data to prevent overfitting of the network during training);
  • in conjunction with the architecture, we propose a simulated annealing-like training schedule that is shown to minimize the generalization error between train and test losses.

2. Data Processing

数据集来自1999-2000年至2015-2016年的NHANES数据。
由37,079名 (冠心病-1300人,非冠心病-35,779人) 的人口统计、检查、实验室和问卷数据组合而成,如图1所示。
在这里插入图片描述
Fig. 1 Data compilation from National Health and Nutritional Survey (NHANES). The data is acquired from 1999 to 2016 in three categories – Demography, Examination and Laboratory. Based on the nature of the factors that are considered, the dataset contains both the quantitative and the qualitative variables.

总共使用了 30 个连续变量和 6 个分类变量来预测冠心病。

详细列出的变量有:性别、年龄、家庭年收入、贫困家庭收入比、60秒脉率、收缩压、舒张压、体重、身高、体重指数、白细胞、淋巴细胞、单核细胞、嗜酸性粒细胞、嗜碱性粒细胞、红细胞、血红蛋白、平均细胞体积、血红蛋白平均浓度、血小板计数、血小板平均体积、中性粒细胞、红细胞压积、红细胞宽度、白蛋白、碱性磷酸酶(Alp)。乳酸脱氢酶(LDH)、磷、胆红素、蛋白质、尿酸、甘油三酯、总胆固醇、高密度脂蛋白(HDL)、糖化血红蛋白、剧烈运动、适度运动、健康保险、糖尿病、血液相关糖尿病和血液相关中风。

3. Proposed Architecture

3.1 LASSO Shrinkage and Majority Voting

LASSO 或最小绝对收缩和选择算子是一种回归技术,用于变量选择和正则化,以提高其产生的统计模型的预测精度和可解释性。

LASSO 是一个二项问题,目标是最小化如下目标函数:

∑ i = 1 n ( y i − ∑ j x i j γ j ) 2 + λ ∑ j = 1 p ∣ γ j ∣ \sum_{i=1}^n(y_i - \sum_j x_{ij} \gamma_j)^2 + \lambda \sum_{j=1}^p |\gamma_j| i=1n(yijx

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值