数学建模优秀论文分析及免费资料分享(2)——2023 出血性脑卒中建模与分析

1. 原则与重点

阅读一定要注意效率和时间,分析重点 5:40
每个问题的解决方法
重点方法,以及如何运用
解题的递进关系
如果是我们,到时候能怎么做 ,思考我们是专家的话,得分点是什么
可行性分析及时间分析,完成度
负责写代码的人着重看代码,搞懂输入输出

2. 方法分析

出血性脑卒中是一种严重的神经疾病,在其发展过程中,血肿扩张和血肿周围的水肿都是预后不良的重要危险因素。本文的研究基于 160 名血性脑卒中患者的临床数据和多次 影像检查结果,构建了血肿扩张、水肿体积进展以及患者预后等预测模型,并探索了不同特征因素与预后预测的关联关系。

1.数据介绍

本题主要包含六个附件数据,各附件名称及内容见表1.1所示。具体来说,主要包含以下几个方面信息:
[图片]

2、目标变量

本题的目标变量包括以下两个:
(1)发病 48 小时内是否发生血肿扩张:这是一个二元分类变量,其中 1 表示发生血肿 扩张,0 表示未发生。
(2)发病后 90 天 mRS 评分:mRS 评分是一个有序等级变量,范围从 0 到 6,用于评估患者在发病后 90 天的功能状态。其中,“0”表示“没有症状,没有残疾”;“1”表示“没有明显的残疾,能够独立进行日常活动”;“2”表示“有轻度残疾,能够自理,但在活动中存在一些限制”;“3”表示“有中度残疾,需要一定程度的帮助和照顾,但能够坐立或站立”;“4”表示“有中重度残疾,需要全天候照顾和帮助,无法行走或自理”,“5”表示 “完全依赖他人,不能进行任何活动,床上活动有困难”,“6”表示“死亡”。

3 问题重述

本题的建模目标是通过对表格提供的真实临床数据进行分析,研究出血性脑卒中患者 的血肿扩张风险、血肿周围水肿发生及演进规律,并最终结合临床和影像信息,预测出血 性脑卒中患者的临床预后。具体来说,需要解决以下三个问题:
问题一:血肿扩张概率预测建模及分析。
(1)基于前 100 个患者发病和多次影像检查时间,以及血肿体积前后变化,判断患者在发病后的 48 小时内是否发生血肿扩张事件,若发生则同时记录血肿扩张时间。 (预测事件及时间)
(2)基于患者的个人史、疾病史、发病相关信息,以及首次影像检查结果,构建模型预测所有患者发生血肿扩张的概率。 (预测概率)
问题二:水肿体积进展建模及与治疗干预的关联关系探索。
(1)构建全体患者水肿体积随时间进展曲线,计算前 100 个患者真实值与拟合曲线之间的残差。
(2)探索患者水肿体积随时间进展模式的个体差异,构建不同亚组的水肿体积随时间进展曲线,同时计算前 100 个患者真实值与曲线之间的残差。
(3)分析不同治疗方法对水肿体积进展模式的影响。
(4)分析血肿体积、水肿体积以及治疗方法之间的关系。
问题三:出血性脑卒中患者预后预测建模及分析。
(1)利用前 100 个患者的个人史、疾病史、发病相关信息,以及首次影像结果,预测所有患者的 90 天 mRS 分。
(2)利用前 100 个患者的已知临床、治疗信息以及影像结果,预测所有患者的 90 天 mRS 评分。
(3)分析出血性脑卒中患者的 90 天 mRS 评分与个人史、疾病史、治疗方法以及影像特征之间的关联关系,为临床决策提供建议。

4.方法

对于问题一,我们对血肿扩张概率预测进行了建模与分析。
该问题包括两个子问题: (a)判断患者是否发生血肿扩张事件,(b)构建模型预测血肿扩张概率
具体来说: 在子问题 (a) 中,基于患者发病和多次影像检查时间,判断了前 100 位患者是否在发病后 48 小时内发生了血肿扩张事件,并记录了血肿扩张事件的发生时间。
在子问题 (b) 中,以患者的个人史、疾病史和发病相关信息为输入,经过数据标准化、 缺失值处理、Spearman 相关性分析、PCA 等处理后,构建预测模型来预测患者发生血肿扩张的概率。我们比较了 XGBoost、随机森林和 Logistic 回归三种模型,最终选择准确率高达 90% 的 XGBoost 模型,预测了所有患者发生血肿扩张的概率。
[图片]

(求解思路图最后画)

对于问题二,我们对水肿体积随时间进展进行了建模与分析,并研究了个体差异和不同治疗方法的影响。具体来说:
在子问题 (a) 中,关注了前 100 个患者水肿体积随时间的变化,我们使用了 RBF 核函数和样条插值方法来拟合全体患者的水肿体积随时间进展曲线,同时计算了拟合残差,分析结果说明 RBF 核函数拟合的效果更佳。
残差是指实际观察值与估计值(拟合值)之间的差,它反映了模型基本假设的重要信息。如果回归模型正确,残差可以看作误差的观测值,应符合模型的假设条件,具有误差的一些性质。利用残差来考察模型假设的合理性及数据的可靠性称为残差分析。
在子问题 (b) 中,提出患者水肿体积变化线条-线条三维趋势点-Mean-Shift 聚类的算法,捕捉个体差异,并据此分成四个不同的进展趋势亚组。使用 RBF 核函数方法来拟合这 些亚组的水肿体积曲线,计算得到相较于子问题 (a) 降低了 34.3% 的平均残差效果。
(在这里提出了创新方法,并很好解决了之前的问题。这个算法讲人话就是,先画线条,在通过初始斜率大小、中间斜率大小、末尾斜率大小,形成趋势的三维点坐标,通过 Mean Shift 算法对三维线条趋势点进行聚类,并估计密度(怎么估计的),生成相应聚类中心。做完后结果其实是各个分析。比较有意思的是三维趋势点,可以和其它方法结合。这个小组很会做拆分,分析也是拆分成四个亚组再看总体关系)
在这一部分,我们将探讨患者水肿体积随时间进展的个体差异,以更深入地理解血肿周围水肿的发生和进展模式。 首先,我们依旧选用图4.7(b) 的水肿体积随时间的分布散点图进行分析,即对横坐标 (时间)取对数,使数据更符合模型假设。
接着,我们使用不同的数据分组和曲线拟合方法来处理这些数据。考虑到共有一百位患者的水肿体积随时间进展的方式,我们将所有患者的水肿体积变化组合成折线,并进行线条走向的聚类分析。所有患者的水肿变化趋势如下:
[图片]

我们将所有线条具化为三段大小:初始斜率大小、中间斜率大小、末尾斜率大小,形成趋势的三维点坐标,通过 Mean Shift 算法对三维线条趋势点进行聚类,并估计密度,生成相应聚类中心。
通过对聚类中心的分析,我们最终将患者分成两大部分:一部分呈现明显的水肿体积变化(总体趋势呈现变化),另一部分水肿体积相对稳定(总体趋势不变)。对于呈现变化的部分,我们进一步将其分为三个亚组:水肿体积总趋势上升组、水肿体积总趋势下降组、 水肿体积先上升后下降组。
最终,我们将患者分为四个不同的随时间进展的水肿体积变化趋势组,包括:
(1)亚组 1——水肿体积稳定在较低水平组:这些患者的水肿体积相对稳定,没有显著的变化。
(2)亚组 2——水肿体积总趋势下降组:这组患者水肿体积呈逐渐减小的趋势。
(3)亚组 3——水肿体积先增加后减少组:在一段时间内,这些患者的水肿体积增加, 然后开始逐渐减小。
(4)亚组 4——水肿体积总趋势上升组:这组患者的水肿体积呈逐渐增加的趋势。 针对每个亚组,我们分别进行了水肿体积随时间的曲线拟合,并在一张综合的散点图 中呈现了四条不同的拟合曲线,如图4.12所示。其中,蓝色为水肿体积稳定在较低水平组, 红色为水肿体积总趋势下降组,绿色为水肿体积先增加后减少组,黄色为水肿体积总趋势上升组。
[图片]

在子问题 © 中,使用决策树分析和统计学分析两种方法,探索了不同治疗方法对水肿体积进展模式的影响。
为了探究患者的七种治疗方式对水肿体积随时间变化的发展模式,首先考虑使用决策
树来分析七个变量对一个结果的影响。
由于子问题二中使用 1,2,3,4 的方法代表分类结果,数字之间存在着天然的距离,
为了保证较好的分析结果,考虑使用独热化方式对分类结果事先进行编码。

在子问题 (d) 中,探索了血肿体积、水肿体积和治疗方法之间的关系,通过相关性分析以及统计图表分析得到了不同因素之间的相互作用。

对于问题三,我们基于患者的个人史、疾病史、治疗方法和影像特征,对患者预后预测进行了建模与分析,并探索了与各特征之间的关联关系。具体来说:
在子问题 (a) 中,基于首次影像结果建立出血性脑卒中患者 90 天 mRS 评分的预测模型。我们使用了独热编码和数据拼接来处理多源数据,通过对比随机森林和 XGBoost 两种机器学习模型,得出 XGBoost 算法的预测效果更佳。
在子问题 (b) 中,基于所有影像结果建立出血性脑卒中患者 90 天 mRS 评分的预测模型。我们使用了 XGBoost 和 RNN 模型进行更全面的预测,模型预测准确性相对于问题 (a) 有了大幅提升,并且 RNN 模型对患者的 90 天 mRS 评分预测效果高达 98%。
在子问题 © 中,使用 Spearman 系数进行相关性分析,探讨了患者的个人史、疾病史、 治疗方法以及多个影像特征与 90 天 mRS 评分之间的关联关系。通过识别与患者预后相关的关键因素,为临床相关决策提供建议。

本研究的结果强调了临床特征和影像检查的重要性,以及机器学习方法在出血性脑卒 中患者管理中的潜在应用。我们的研究为改善出血性脑卒中患者的预后评估提供了有力支 持,有望在未来的临床实践中发挥积极作用。

3. 技术介绍

1、Logistic 回归
Logistic 回归分析属于非线性回归,它是研究因变量为二项分类或多项分类结果与某 些影响因素之间关系的一种多重回归分析方法 。该模型的核心思想在于通过建立一个 逻辑函数(Logistic 函数)来估计一个样本属于某一类别的概率,即将输入的特征映射到 一个概率输出,用于描述事件发生的可能性。
Logistic 回归模型的逻辑函数采用了 S 形曲线,其输出值在 0 到 1 之间,可以表示为概 率。该函数具有良好的性质,使得 Logistic 回归能够灵活地适应各种复杂的分类问题。模型的训练过程主要涉及到参数的估计,通常采用了最大似然估计方法来确定模型的参数。
2、随机森林
随机森林 [4] 是一种强大而广泛应用的机器学习算法,它在分类和回归问题中都表现 出色。
随机森林模型是由多棵决策树组成的。决策树 [5] 是一种树状结构,用于将数据集分成不同的类别或进行回归分析。它由节点、分支、叶子节点组成。决策树的构建过程是根 据数据特征来选择最佳的划分点,以将数据分成最纯净的子集。这个过程不断重复,直到 达到某个停止条件(如树的深度达到一定值或节点中的样本数量小于阈值)。随机森林的 核心思想是集成学习,它通过组合多个弱学习器来构建一个强大的学习器。在随机森林中, 这些弱学习器就是决策树。通过构建多个不同的决策树,随机森林可以减小过拟合的风险, 提高模型的鲁棒性和准确性。
构建随机森林的过程包括以下步骤:
(1)样本的随机抽样:首先,从总体样本容量为 M 的数据集中,采用有放回的方式随机抽取 N 次,每次抽取 1 个,最终形成了 N 个新的、具有随机性的样本集。选择好了的N 个样本用来训练一个决策树,作为决策树根节点处的样本。这个随机抽样过程确保了每 个决策树的训练样本都具有差异性,从而增加了随机森林的多样性和鲁棒性。
(2)属性的随机选择:在构建每个决策树的过程中,每个节点需要选择一个属性来进 行分裂。假设总共有 M 个属性可供选择,在每个节点的分裂过程中,随机选择 m 个属性 (通常情况下 m << M),然后从这 m 个属性中采用某种策略(比如说信息增益)来选择 1 个属性作为该节点的分裂属性。这个随机属性选择的过程有助于决策树的多样性,避免了 单一属性的主导性。
(3)决策树的构建:在每个决策树的根节点处,使用步骤 (1) 中选定的样本集。然后, 按照步骤 (2) 中随机选择的属性进行分裂。这个过程会一直进行,直到达到某个停止条件。 需要注意的是,在决策树构建过程中,并没有进行剪枝操作,允许每个树生长到足够深。
(4)集成多个决策树:通过重复上述步骤,可以得到多个决策树。在分类问题中,通过多数投票的方式确定最终的分类结果。在回归问题中,将多个决策树的预测结果取平均作为最终的回归结果。这个集成的过程有助于提高模型的准确性和泛化能力。
3、XGBoost
XGBoost (Extreme Gradient Boosting) 算法 是一个可扩展的分布式梯度提升决策树 (GBDT) 机器学习库。XGBoost 支持并行树提升,是用于回归或分类问题的领先机器学习 模型。
XGBoost 的核心思想在于将弱分类器(通常是决策树)组合成一个强大的集成模型。 其独特之处在于引入了梯度提升算法,并采用了一系列创新性的技术来提高模型的准确性 和效率。该算法的工作方式如下:首先,XGBoost 以一个弱分类器(单棵决策树)作为初始模型,然后计算每个样本点的残差(实际值与当前模型预测值之间的差异)。接着,它训 练一个新的决策树来拟合这些残差,以纠正先前模型的错误。这个过程不断迭代,每一轮都关注之前模型的错误,以使得每个新模型都更加精确。 对于包含 n 条 m 维的数据集,XGBoost 模型可表示为:
[图片]

2.1、RBF 核函数拟合
径向基函数(Radial Basis Function,RBF)核函数是支持向量机(Support Vector Machine,
SVM)中常用的核函数之一,也被广泛应用于机器学习和数据挖掘领域。RBF 核函数的特
点在于其出色的非线性映射能力,能够有效地处理线性不可分的数据,并将其映射到高维
特征空间,从而实现了更好的分类性能。
RBF 核函数的核心思想源自径向基函数,这是一个以原点为中心,从中心点向外扩散
的函数,具有类似钟形的形状。其数学表达式如下:
[图片]

其中,x 和 x ′ 分别表示输入样本的两个特征向量,∥x − x ′∥ 是这两个向量之间的欧氏
距离,σ 是一个控制函数形状的参数。σ 的选择会直接影响到分类器的性能——较小的 σ
值会导致核函数的扩散范围较小,模型会更加关注训练样本的局部特征,容易过拟合;而
较大的 σ 值则会导致核函数的扩散范围较大,模型更关注整体特征,容易欠拟合。因此,
选择合适的 σ 参数是应用 RBF 核函数时需要仔细调优的一部分。
总之,RBF 核函数的关键在于它通过将输入数据映射到高维特征空间,实现线性不可
分问题的线性可分化,为机器学习领域提供了重要的工具和方法。
2、样条插值拟合
样条插值是一种常用的数值分析方法,用于拟合或逼近一组离散数据点,以生成一个
光滑的曲线或曲面。它在数据重建、函数逼近和曲线拟合等领域具有广泛的应用。样条插
值的核心思想是将数据区间分割成若干小段,每一段用一个低阶多项式来逼近,然后将这
些多项式组合成一个整体的光滑函数。
样条插值方法的优势之一是它们不仅适用于均匀分布的数据点,还适用于不均匀分布
的数据点,因为它们在每一段内都使用多项式逼近,从而能够更好地处理数据点密集和稀
疏的情况。
使用 25 次样条插值拟合得到的前 100 个患者(sub001 至 sub100)的水肿体积随时间
变化曲线如图4.9所示。
3、残差计算
考虑到同一名患者有可能在这多次检测结果中与拟合曲线出现正负误差,导致最终的
残差和变小,因此对每一个残差进行绝对值处理,最终根据检测次数求平均得到每一位患
者与拟合曲线的残差值。因此,我们基于以下公式计算单个残差:
[图片]

其中 m(n) 表示第 n 位患者的影像检查次数。平均残差是所有残差的平均值,可以表示模型整体的预测误差。计算平均残差有助于 评估模型的拟合程度,如果平均残差接近零,表示你的模型对数据的拟合较好;如果平均残差远离零,说明模型可能存在较大的预测误差。本题中使用以下公式计算,其中 100 表 示患者数量:
[图片]

4.Mean-Shift 聚类
Mean-Shift(均值漂移)聚类是一种基于密度的无监督学习算法。

一、基本原理

  1. 定义一个核函数和带宽参数,以每个数据点为中心,计算在带宽范围内的所有数据点的加权平均向量。
  2. 将数据点沿着该平均向量的方向移动到新的位置。
  3. 重复这个过程,直到数据点的移动小于某个阈值,此时认为数据点到达了一个稳定的位置,称为模式点。
  4. 具有相同模式点的数据点被归为同一类。

二、特点

  1. 无需预先指定聚类的数量:Mean-Shift 算法可以自动确定聚类的数量,这对于那些不知道数据中确切聚类数量的情况非常有用。
  2. 对数据的形状适应性强:它可以处理任意形状的聚类,不像一些基于距离的算法(如 K-Means)只能处理球形或凸形的聚类。
  3. 对噪声具有一定的鲁棒性:由于其基于密度的特性,少量的噪声点对聚类结果的影响相对较小。

三、应用场景

  1. 图像分割:可以将图像中的像素根据颜色、纹理等特征进行聚类,从而实现图像的分割。
  2. 目标跟踪:在视频序列中跟踪目标时,可以利用 Mean-Shift 算法根据目标的特征进行聚类,从而确定目标的位置。
  3. 数据分析:用于对大规模数据集进行聚类分析,帮助发现数据中的潜在模式和结构。

4. 亮点回顾(老师为什么给高分)

自评
6.1 模型的优点

  1. 本文充分考虑了数据的特征重要性,在输入预测模型前使用标准化、Spearman 相关性分析以及 PCA 等数据预处理方法;
  2. 本文在对问题分析时考虑较为全面,采用多个模型或算法进行求解,对一个模型进行纵向最佳超参选取,横向模型对比;
  3. 对医学上的数据进行绝对大小和变化量(那个三维趋势)两个维度分析,保证了最终结果的稳健性和完善性;
  4. 充分融合机器学习以及可视化的统计分析的优点,如在问题二中治疗方法与水肿、 血肿体积的关系分析,正视脑室引流患者较少的问题,给出“矛盾性”的原因以及更为深入的结果答案;
  5. 不仅能够有效地处理高维数据和非线性关系,同时也考虑到了对具有时序关系的数据的处理。
    6.2 模型的不足
  6. 模型对不同患者间数据的独立性分布要求较高,并要求同一位患者的所有随访数据为存在潜在强相关关系;
    (比如有三位患者 A、B、C,模型要求 A 的数据与 B 的数据、C 的数据相互独立,不能因为 B 的情况而影响对 A 数据的判断。而对于同一位患者,比如患者 A,他不同时间的随访数据之间存在潜在强相关关系,比如第一次随访发现 A 有轻微症状,第二次随访可能症状加重,这两次随访数据之间就有很强的联系,不是相互独立的。)
  7. 部分模型如 XGBoost 和 RNN 等模型的预测性能很好,但它们的解释性相对较差。 若要在医学领域进行预测分析,需要改进并选择相应的模型解释工具。
    6.3 未来的改进方向
  8. 获取更多临床真实数据,使用大规模数据集进行训练和测试,提高模型的鲁棒性:
  9. 可以考虑使用模型融合技术,将多个模型的预测结果进行组合,以进一步提高预测性能。

客评:

  1. 每个问题都解决了多种方法,并进行对比分析,游刃有余。
  2. 数据分析做的很好,建议看4.5,5.4 有理有据。
  3. 提出了创新。
  4. 完整度,论文质量高。容忍有瑕疵的。看重点是什么。
  5. 代码
    这篇没有给代码,适用他们那个三维点具体怎么表示的我也不是很清楚,也许是进行了分类。

免费资源获取

1.CSDN文章标题下方
在这里插入图片描述
2.对应视频讲解,可以看b站up:啊我有兔子牙
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值