论文笔记：Identifying Lung Cancer Risk Factors in the Elderly Using Deep Neural Network - Chen, Wu_破案了。论文原文贴在这里:(论文标题:identifying the censorable: a t-CSDN博客

本文链接：https://blog.csdn.net/qq_39633239/article/details/106542405

论文笔记：Identifying Lung Cancer Risk Factors in the Elderly Using Deep Neural Network - Chen, Wu

原文链接 Identifying Lung Cancer Risk Factors in the Elderly Using Deep Neural Network

个人投稿，只为记录，图文来自原论文，如有侵权请告知，马上删除。（求生欲爆棚）

Abstract部分
Objective: 确定老年人肺癌发病的关键危险因素，使用深度学习方法来定量分析这些危险因素对肺癌发病影响程度。
Methods: 提取已有数据进行预处理。对样本分组，在分组人群中训练深度神经网络模型。之后提取了诱发老年人肺癌的危险因素，并使用模型进行定量分析。
Data Source
BRFSS - 美国疾病控制与预防中心的开放访问源。BRFSS从美国居民收集有关其健康相关风险行为，慢性健康状况，预防服务使用等方面的调查数据。
文章使用1996年至2017年间来自美国50个州的235,673名成年人的肺癌行为健康风险数据。
数据筛选过程：

BRFSS问卷调查包含一些已有的调查问题，下表只展示了其中16个相关问题。
从美国环境保护署的开放访问网站中得到环境风险因素：空气污染物和饮用水。根据日期将环境数据与BRFSS的风险因素相关联，得到最终的数据源。
论文流程

全文共有四个部分：
Data integration： 整合了有关医疗人口统计学、吸烟习惯、疾病史、辐射暴露、行为风险和其他等方面的数据；
Data balancing and preprocessing： 由于肺癌病例数远低于非肺癌病例，因此需要平衡数据，再对平衡后的数据进行预处理；
Deep learning model training： 利用分组后的数据训练DNN模型，通过模型提取了各组数据的危险因素；
Risk factor quantitative analysis： 对老年患者的各危险因素的影响程度进行定量分析。

Data integration：
医学人口统计学因素：年龄、性别、体重指数和教育程度；
吸烟习惯因素包括吸烟强度、开始吸烟的年龄、吸烟频率、戒烟时间、使用电子烟、二手烟暴露以及其他吸烟习惯；
疾病史：COPD史、哮喘史、个人癌症史和癌症家族史；
放射线照射：胸部或胸部的放射治疗、CT或CAT医学影像学检查以及职业性接触石棉，ra和砷的照射；
还考虑了饮食和运动习惯以及其他行为危险因素。

Data balancing and preprocessing：
肺癌与非肺癌病例的比例约为1:115，肺癌占比太小，数据不平衡，使用synthetic minority oversampling technique(SMOTE)解决不平衡问题。SMOTE基于K最近邻算法来模拟少数样本。~~（以后再具体写嘿嘿）~~
数据有残缺值等其他问题。对数据进行预处理，对残缺值进行填充，对噪声数据平滑处理。使用multiple imputation多重插补填补缺失值。利用奇异值分解以减少预处理阶段产生的噪声。
将预处理后的数据分为4组: 年龄在65岁以上的人(年龄 ≥ 65岁)，65岁及以上女性，65岁以上男性，以及所有人群。

Deep learning model training：
首先将数据格式转换为HDF5文件，使用Caffe框架按顺序训练基于分组的DNN模型。

Caffe：用于快速特征嵌入的卷积体系结果的软件。2017年4月Facebook推出Caffe2.0， 2018年3月，Caffe2.0被合并到Pytorch。

DNN模型构建及训练步骤：首先使用Caffe框架按顺序训练四个组的DNN模型，输入数据通过input layer，计算hidden layer中不同危险因素的权重，通过output layer获得关键危险因素。之后根据分组DNN模型提取了不同组的危险因素。

DNN架构：
1个输入层，3个隐藏层，1个输出层，层与层之前全连接；
激活函数选取ReLU函数： $f(x)=\left\{\begin{array}{ll}0, & x \leq 0 \\ x, & x>0\end{array}\right.$
输入节点和输出节点的数量取决于输入和输出特征的数量，隐藏层的数量由数据大小确定。本文设定输入层节点数：30；输出层节点数：9；隐含层节点数：3；（也就是输入的每个样本的特征数为30，输出的特征数为9）
准确性检验：10-fold 交叉验证，即将数据分为10部分。将它们轮换以将其中9个用作训练集，余下的1个用作模型训练的测试集。

Risk factor quantitative analysis：
首先对输出结果进行权重归一化，使得每个权重都落在0和1之间， $w_{\text {Normalized}}=\frac{w-w_{\text {Min}}}{w_{\operatorname{Max}}-w_{\operatorname{Min}}}$
归一化后的权重代表了危险因素对肺癌发生的影响程度。