题目简析:C题是一个背景知识较强的数据分析题,需要结合很多资料文献去做。虽然题目非常贴心地给了数据和参考文献,但是文献足足有148页,数据集也很杂乱,很考验建模和分析。
阿尔茨海默病(AD)是一种进行性神经退行性疾病,起病隐匿。其临床特征为一系列痴呆,包括记忆障碍、失语症、流畅性障碍、失认症、视觉空间技能障碍、执行功能障碍以及人格和行为改变,其原因尚不清楚。以日常生活活动能力进行性下降为特征,伴有各种神经精神症状和行为障碍。这种疾病通常在老年人中进行性发展,在发病 10 至 20 年后逐渐丧失独立生活能力并因并发症死亡。
阿尔茨海默病的临床前阶段,也称为轻度认知障碍(MCI),是正常和严重之间的过渡状态。由于患者及家属对疾病的认知有限,67%的患者被诊断为中重度,已错过最佳干预阶段。因此,早期准确诊断阿尔茨海默病和轻度认知障碍具有重要意义。
所附数据包含在不同时间点(一个时间点为一个量)收集的 4850 名认知正常老年人(CN)、1416 名主观记忆主诉患者(SMC)、2968 名早期轻度认知障碍患者(EMCI)、5236 名晚期轻度认知障碍患者(LMCI)和 1738 名阿尔茨海默病患者(AD)的具体信息特征。请利用附录中提供的不同类别人群的大脑结构特征和认知行为特征,构建阿尔茨海默病识别模型,设计智能诊断方法,准确诊断阿尔茨海默病。
(1) 对所附数据的特征指标进行预处理,考察数据特征与阿尔茨海默病诊断的相关性。
由于数据集量很大而且格式很乱,需要不小工作量的预处理,如数据整理成整齐的dataframe,数据筛选,归一化,箱线图剔除异常值等等。
最简单的相关分析方法是将数据进行可视化处理,简单的说就是绘制图表(一般是折线图或散点图)。相关性的计算则可以采用简单的协方差或者皮尔逊系数,绘制热力图,也可以用回归分析或者高大上的信息熵与互信息法。
(2) 利用附带的结构脑特征和认知行为特征,设计阿尔茨海默病的智能诊断。
预处理后,咱们可以剔除不相关的变量,和一些不重要的(字符串)变量,实现特征降维。
对数据进行预处理后,接下来将运用机器学习模型来进行阿尔兹海默症诊断。这
是一个典型的分类问题,常见的评价指标有准确率、精确率、召回率、特异度、AUC值等。
(3) 首先,将 CN、MCI 和 AD 分成三大类。然后,对于 MCI 中包含的三个子类 (SMC、EMCI 和 LMCI ),聚类继续细化为三个子类。
这里按照题目要求做聚类即可,可以采用kmeans聚类、层次聚类、dbscan聚类。分类的维度可以结合文献资料自选也可以利用熵权法、卡方检验法筛选出决定性变量。
(4) 附件中的相同样本包含在不同时间点收集的特征,请分析它们与时间点的关系,以揭示不同类别疾病随时间演变的模式。
按照时间点分类,分别计算各统计量,先可视化初步判断相关关系,再试着用前面提到的回归、相关性分析等方法研究特征与时间点的关系。
(5) 请参考相关文献来描述 CN、SMC、EMCI、LMCI 和 AD 五种类型的早期干预和诊断标准。
结合模型结果做个大总结。
完整解题思路+代码见评论区!!!