大数据分析题,门槛低,Python 代码实现起来简单,想要获奖需要用比较好的分析方法,多种方法做验证,绘制好看的图表:
第一题很简单,主要是为了让你熟悉题目和数据
- a 问
- 首先级联两个表中的必要数据,维护患者血肿扩张情况,遍历患者信息
- 维护影像检查时间间隔、血肿体积等数据
- 判断血肿是否满足扩张标准
- b 问
- 首先需要筛数据,想拿好点的奖就做全面一些:例如异常值处理、各种指标与扩张概率之间的弱相关性剔除、样本均衡(能不能删,不能删的怎么扩)
- 具体方法上就有很多了,什么决策树、随机森林多方法融合、投票、加权、距离相关系数
- 筛完数据做一下标准化,拆分训练集和测试集,选择合适的预测模型,例如逻辑回归、决策树、随机森林、支持向量机
- 训练模型、相关性评价
- 模型评价
第二题说白了就是数据处理 + 画图:
- a 问选取合适的数据,用多项式回归等方式做一个拟合,计算真实值与拟合曲线之间的残差
- b 问核心就是考虑不同的情况对患者合理分组,针对每个分组的患者分别构建水肿体积随时间的变化曲线,然后与 a 问差不多
- c 问用表 1 中的治疗方案进行分组拟合,然后同上
- d 问就是数据可视化和统计分析
- 进阶的可以考虑一些异常、拟合之类的处理分析,这里就不写明了
第三题需要分析仅使用影像和使用全部信息分析的内在联系,使用特征工程确定所使用的主要变量和辅助变量,使用恰当的机器学习策略建立模型并求解,需要考虑 b 问和 a 问