论文笔记:Identifying Lung Cancer Risk Factors in the Elderly Using Deep Neural Network - Chen, Wu

论文笔记:Identifying Lung Cancer Risk Factors in the Elderly Using Deep Neural Network - Chen, Wu

原文链接 Identifying Lung Cancer Risk Factors in the Elderly Using Deep Neural Network

个人投稿,只为记录,图文来自原论文,如有侵权请告知,马上删除。(求生欲爆棚)

  1. Abstract部分
    Objective: 确定老年人肺癌发病的关键危险因素,使用深度学习方法来定量分析这些危险因素对肺癌发病影响程度。
    Methods: 提取已有数据进行预处理。对样本分组,在分组人群中训练深度神经网络模型。之后提取了诱发老年人肺癌的危险因素,并使用模型进行定量分析。

  2. Data Source
    BRFSS - 美国疾病控制与预防中心的开放访问源。BRFSS从美国居民收集有关其健康相关风险行为,慢性健康状况,预防服务使用等方面的调查数据。
    文章使用1996年至2017年间来自美国50个州的235,673名成年人的肺癌行为健康风险数据。
    数据筛选过程:
    Figure 1
    BRFSS问卷调查包含一些已有的调查问题,下表只展示了其中16个相关问题。Table 1
    从美国环境保护署的开放访问网站中得到环境风险因素:空气污染物和饮用水。根据日期将环境数据与BRFSS的风险因素相关联,得到最终的数据源。

  3. 论文流程
    在这里插入图片描述
    全文共有四个部分:
    Data integration: 整合了有关医疗人口统计学、吸烟习惯、疾病史、辐射暴露、行为风险和其他等方面的数据;
    Data balancing and preprocessing: 由于肺癌病例数远低于非肺癌病例,因此需要平衡数据,再对平衡后的数据进行预处理;
    Deep learning model training: 利用分组后的数据训练DNN模型,通过模型提取了各组数据的危险因素;
    Risk factor quantitative analysis: 对老年患者的各危险因素的影响程度进行定量分析。

Data integration:
医学人口统计学因素:年龄、性别、体重指数和教育程度;
吸烟习惯因素包括吸烟强度、开始吸烟的年龄、吸烟频率、戒烟时间、 使用电子烟、二手烟暴露以及其他吸烟习惯;
疾病史:COPD史、哮喘史、个人癌症史和癌症家族史;
放射线照射:胸部或胸部的放射治疗、CT或CAT医学影像学检查以及职业性接触石棉,ra和砷的照射;
还考虑了饮食和运动习惯以及其他行为危险因素。

Data balancing and preprocessing:
肺癌与非肺癌病例的比例约为1:115,肺癌占比太小,数据不平衡,使用synthetic minority oversampling technique(SMOTE)解决不平衡问题。SMOTE基于K最近邻算法来模拟少数样本。(以后再具体写嘿嘿)
数据有残缺值等其他问题。对数据进行预处理,对残缺值进行填充,对噪声数据平滑处理。使用multiple imputation多重插补填补缺失值。利用奇异值分解以减少预处理阶段产生的噪声。
将预处理后的数据分为4组: 年龄在65岁以上的人(年龄 ≥ 65岁),65岁及以上女性,65岁以上男性,以及所有人群。

Deep learning model training:
首先将数据格式转换为HDF5文件,使用Caffe框架按顺序训练基于分组的DNN模型。

Caffe:用于快速特征嵌入的卷积体系结果的软件。2017年4月Facebook推出Caffe2.0, 2018年3月,Caffe2.0被合并到Pytorch。

DNN模型构建及训练步骤:首先使用Caffe框架按顺序训练四个组的DNN模型,输入数据通过input layer,计算hidden layer中不同危险因素的权重,通过output layer获得关键危险因素。之后根据分组DNN模型提取了不同组的危险因素。

DNN架构:
1个输入层,3个隐藏层,1个输出层,层与层之前全连接;
激活函数选取ReLU函数: f ( x ) = { 0 , x ≤ 0 x , x > 0 f(x)=\left\{\begin{array}{ll}0, & x \leq 0 \\ x, & x>0\end{array}\right. f(x)={0,x,x0x>0
输入节点和输出节点的数量取决于输入和输出特征的数量,隐藏层的数量由数据大小确定。本文设定输入层节点数:30; 输出层节点数:9; 隐含层节点数:3;(也就是输入的每个样本的特征数为30, 输出的特征数为9)
准确性检验:10-fold 交叉验证,即将数据分为10部分。将它们轮换以将其中9个用作训练集 ,余下的1个用作模型训练的测试集。

Risk factor quantitative analysis:
首先对输出结果进行权重归一化,使得每个权重都落在0和1之间, w Normalized = w − w Min w Max ⁡ − w Min ⁡ w_{\text {Normalized}}=\frac{w-w_{\text {Min}}}{w_{\operatorname{Max}}-w_{\operatorname{Min}}} wNormalized=wMaxwMinwwMin
归一化后的权重代表了危险因素对肺癌发生的影响程度。

  1. Result

上图显示了通过DNN模型获得的4个分组中危险因素的权重。
后面根据结果进行了各种比较分析balabalabala。

我的Question 位置:

  • Q1:DNN的output node只有9个,为什么最后的结果图有18个指标?

  • Q2:训练集的响应变量即对应output layer的输出是什么?

    未来要是想出答案再来补~

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值