笔记：数学建模华中杯比赛论文研究：十五届A题第一篇

q15623588795

已于 2024-04-16 17:32:54 修改

阅读量1k

点赞数 21

文章标签：笔记

于 2024-04-16 16:02:21 首次发布

本文链接：https://blog.csdn.net/q15623588795/article/details/137723747

版权

十五届华中杯\A题：临床实验镇静药物疗效分析与预测/第一篇

问题一：卡方、缺失值处理、SMOTE、逻辑回归

问题二：样本选择偏差、T检验、OLS多元线性回归分析

问题三：剔除过程变量、小样本机器学习回归模型、随机森林模型

问题四：相关性分析，Spearman 相关系数

模型评价

十五届华中杯\A题：临床实验镇静药物疗效分析与预测/第一篇

问题一：卡方、缺失值处理、SMOTE、逻辑回归

Q:新药组和原有药物组是否在术中、术后 24h 不良反应上存在显著差异；能否建立一个有效的数学模型，基于患者的基本信息和镇静药物的种类，对患者术中、术后 24h 的不良反应进行预判。

差异性分析：先检验了各个计量资料组的分布情况，数据大多为定类变量，且数据集总量较少再选取了 Pearson 卡方检验和 yates 校正卡方检验作为差异性检验方法。卡方检验的模型计算过程方便简洁，相比于 Fisher 精确检验等算法，更适用于大样本差异性检测。

回归预测：先缺失值处理：固定值填充、众数填充、三次标准差填充。后正负样本比例悬殊：SMOTE过采样。最后逻辑回归（二元因变量）、Lasso 回归，选择了逻辑回归。

1.对缺失值进行填充处理、2.为确定显著性差异模型的类型计算期望频数、3.建立模型、4.建立基于逻辑回归与岭回归的两步回归预测模型，并通过 {召回率、准确率、LOC} 等多项指标评估回归模型的优劣

（显著性）差异模型的类型：

t检验：用于比较两组平均值之间的显著性差异，包括独立样本t检验（比较两组独立样本）、配对样本t检验（比较同一组样本在不同条件下的表现）等。
方差分析（ANOVA）：用于比较三个或三个以上组之间的平均值是否存在显著性差异，包括单因素方差分析和多因素方差分析。
卡方检验15.A.1.1：用于比较两个或两个以上分类变量之间的关联性或显著性差异。
方差分析的非参数替代方法：如Kruskal-Wallis检验等，用于比较不满足方差分析假设的数据。
线性回归模型：用于研究自变量对因变量的影响是否存在显著性差异。
Logistic回归模型：用于研究自变量对二分类因变量的影响是否存在显著性差异。
生存分析模型：用于研究生存数据中不同组别之间生存曲线是否存在显著性差异。

根据以下进行区分：

研究设计：实验性研究，通常会使用t检验、方差分析等模型来比较不同处理组之间的差异；观察性研究，可能会使用回归模型或生存分析模型等。
变量类型：连续变量，可以使用t检验、方差分析等；分类变量，可以使用卡方检验；生存时间数据，可以使用生存分析模型等。
数据结构：单因素实验设计，可以使用单因素方差分析；多因素实验设计，可以使用多因素方差分析；如果数据不符合正态分布假设，可以考虑使用非参数检验方法。
研究问题：根据研究问题的特点和假设选择合适的显著性差异模型。

问题二：样本选择偏差、T检验、OLS多元线性回归分析

Q: 关于生命体征数据方面，新药组和原有药物组是否表现出显著差异；若有显著差异，能否确定是由于新药造成，还是由其他因素造成。

相关性（差异性分析）：选因变量，差异性分析模型。显著性水平

因果性（回归模型）：先在“相关性的基础上引入其他可能的影响因素作为自变量，建立回归模型，计算参数回归值，进行初步回归；再将相关性显著的指标合并，进行二次回归，最后通过 相应参数回归值评判该因素是否为导致显著影响的原因。

1.检查两组药物下患者基础体征的数据分布，其目的是检测受试对象是否出现了样本选择偏差（无关变量上无显著性差异）；2.显著性差异模型的建立，主要通过配对 T 检验的方式进行显著性差异假设检验；3.建立 OLS 多元线性回归分析模型，并利用该模型评估新药物对于不同生命体征指标的影响权重。（本研究针对可能影响术后体征的基础信息进行了统计，依次编码为变量 INFO1~

INFO13，并对其中部分项进行了标签化处理。）

问题三：剔除过程变量、小样本机器学习回归模型、随机森林模型

Q: 临床经验表明，用药后 3 分钟内的 IPI 数据对于病情后续恢复具有决定作用，根据用药信息和患者信息对给药后 3 分钟以内的 IPI 数据进行预测。

预测：先对自变量中的冗余数据项进行了处理，并采用经典的小样本机器学习回归模型进行预测。再通过对支持向量回归， BP 神经网络回归和随机森林三种预测方式的多种指标检验，最终确定采用随机森林模型作为 IPI 预测的最优模型。

在 bp 神经网络、SVR 回归等机器学习算法中，通常需要对输入数据进行标准化处理，以提升模型的表现性能。用数据减去最小值除以最大值减去最小值的差。再对比在上述评价指标（看PDF）下，BP 神经网络、支持向量机回归和随机森林等预测模型对于该任务的推理效能。

过程变量:

假设变量 x1、x2 均为变量 y 关于函数 f 的自变量，即 y = f(x1, x2); 且 x1 是变量x2 关于函数 g 的自变量，即 x2 = g(x1)。在上述条件下，一定存在一个替代函数 f ′ 使得 y = f ′ (x1) = f(x1, g(x1)) = f(x1, x2)，我们称 x2 是 x1 关于函数 f 的过程变量。注意一下情况需要剔除过程变量。

共线性：如果两个或多个过程变量之间存在高度相关性（共线性），可能会导致多重共线性问题，影响模型的稳定性和解释性。
低方差：某些过程变量的方差非常小，即它们的取值变化范围非常有限，这种变量对建模结果的影响可能微乎其微。
无关变量：某些过程变量可能与目标变量没有实质性的相关性，即它们对目标变量的预测没有帮助。
过度拟合：如果模型出现过度拟合的情况，即在训练数据上表现很好，但在新数据上表现不佳，可能是因为模型过于复杂，包含了过多的过程变量。
领域知识：建议在剔除过程变量之前，要充分考虑领域知识和专业经验。有时候某个看似不重要的变量实际上在工艺或系统中扮演着重要的角色，剔除它可能导致模型失真。
交叉验证：在选择是否剔除过程变量时，可以使用交叉验证等技术来评估模型的性能。通过比较剔除和不剔除某个变量后模型的表现，可以更好地判断是否需要保留该变量。

小样本机器学习回归模型

通常用于处理数据量较小的情况下的回归分析问题。以下是一些常见的小样本机器学习回归模型：

岭回归（Ridge Regression）：岭回归是一种线性回归的扩展，通过引入L2正则化项来控制模型的复杂度，防止过拟合。在小样本数据情况下，岭回归可以有效提高模型的泛化能力。
Lasso回归（Lasso Regression）：Lasso回归是另一种线性回归的扩展，使用L1正则化项来实现特征选择，能够自动筛选出最重要的特征，适用于小样本数据的情况。
弹性网络回归（Elastic Net Regression）：弹性网络回归是结合了岭回归和Lasso回归的方法，同时使用L1和L2正则化项，可以克服每种方法的缺点，适用于小样本数据的回归问题。
支持向量回归（Support Vector Regression，SVR）：SVR是一种非线性回归方法，通过寻找最大间隔来拟合数据，适用于小样本情况下的回归分析。
决策树回归（Decision Tree Regression）：决策树回归是一种基于树结构的回归方法，可以处理非线性关系和复杂特征交互，适用于小样本数据的回归建模。
随机森林回归（Random Forest Regression）：随机森林是一种集成学习方法，通过多个决策树的组合来提高模型的性能，对小样本数据具有较好的泛化能力。
梯度提升回归（Gradient Boosting Regression）：梯度提升是一种迭代的集成学习方法，通过逐步优化残差来构建回归模型，适用于小样本数据的回归问题。
神经网络回归（Neural Network Regression）：神经网络是一种深度学习模型，可以适用于小样本数据的回归分析，通过多层神经元的连接来学习复杂的模式。

问题四：相关性分析，Spearman 相关系数

Q: 术后满意度受多种因素影响，例如护理质量、身体恢复程度等，甚至包括一些无法观测到的因素。针对现有数据，是否可以确定术后满意度与哪些因素相关？这些因素之间存在何种关系？

因素分析：先基于题目和附件，对可能对满意度造成较大影响的因素进行筛选。其次对多种相关性分析方法进行对比，研究其分别适用的数据情况，选择了 Spearman 相关系数的方法进行模型的建立。最后对于筛选完的数据进行两轮相关性分析，得出了对满意度造成影响最大的 6 项因素，并对其相关程度以及实际意义进行解释。

步骤一：根据附件中的说明和主观判断，初步筛选出可能对患者术后满意度产生影响的因素（分类筛选，详看PDF）；同时对满意度数据进行量化处理。（1、3、5、7、9...）

步骤二：对是 Pearson 相关系数（适用于定量数据，且数据满足正态分布）、 Spearman 相关

系数（数据不满足正态分布时使用）、 Kendall’s tau-b 相关系数 （有序定类变量）等模型的适用情形进行对比分析，选择出最适合用来分析本题中数据集的方法。

步骤三： 使用步骤二中选择的 Spearman 方法进行建模分析，评估与术后满意度相关性最高的因素。