机器学习对于癌症数据的分析应用学习总结
应用背景
机器学习与医疗数据结合辅助医师诊断应用已然相当广泛。利用机器学习、神经网络、深度学习、logistic回归与随机森林算法等构造诊断预测模型在实验应用过程中都取得了一定的成果。
项目概要
在本次测试中主要采用深度学习与机器学习中FNN(前馈神经网络)、KNN(K最邻近算法)等常用模型对宫颈癌、肝癌诱发因素相关数据进行训练,最终识别患者是否患病。并将深度学习的预测精确度与机器学习中SVM网络模型训练识别的结果进行对比,分析优劣性。最终将实验结果较好的网络模型投入癌症辅助诊断医疗设备的诊断算法的研发中。
数据说明
本次实验过程主要采用宫颈癌诱发因素与肝癌诱发因素数据进行训练。数据为csv格式,标签为该患者是否在较短时间内患有癌症。
项目内容
- 数据预处理
- 数据归一化,格式转换。将所有数据转换成矩阵形式。
- 数据清洗,标签对应。去除重复的无用的数据,补齐缺失的数据。
- 模型相关参数
- SVM使用多项式核函数、径向基函数等作为核函数
- FNN(前馈神经网络)使用三层神经元,前两层使用relu函数进行激活,最后一层使用sigmoid函数实现二分类
- 训练结果
训练时使用交叉熵验证的方法处理并验证训练结果,对
宫颈癌患病与否的分析正确率要高于肝癌患病分析的正确率,这与数据本身的完整度和分布特征有一定关系。从总体情况来看,对所有数据分析预测的正确率都能够达到95%以上,在辅助医师判断方面具有一定的可行性。