目录
十五届华中杯\A题:临床实验镇静药物疗效分析与预测/第一篇
问题一:卡方、缺失值处理、SMOTE、逻辑回归
Q:新药组和原有药物组是否在术中、术后 24h 不良反应上存在显著差异;能否建立一个有效的数学模型,基于患者的基本信息和镇静药物的种类,对患者术中、 术后 24h 的不良反应进行预判。
差异性分析:先检验了各个计量资料组的分布情况,数据大多为定类变量,且数据集总量较少再选取了 Pearson 卡方检验和 yates 校正卡方检验作为差异性检验方法。卡方检验的模型计算过程方便简洁,相比于 Fisher 精确检验等算法,更适用于大样本差异性检测。
回归预测:先缺失值处理:固定值填充、众数填充、三次标准差填充。后正负样本比例悬殊:SMOTE过采样。最后逻辑回归(二元因变量)、Lasso 回归,选择了逻辑回归。
1.对缺失值进行填充处理、2.为确定显著性差异模型的类型计算期望频数、3.建立模型、4.建立基于逻辑回归与岭回归的两步回归预测模型,并通过 {召回率、准确率、LOC} 等多项指标评估回归模型的优劣
(显著性)差异模型的类型:
-
t检验:用于比较两组平均值之间的显著性差异,包括独立样本t检验(比较两组独立样本)、配对样本t检验(比较同一组样本在不同条件下的表现)等。
-
方差分析(ANOVA):用于比较三个或三个以上组之间的平均值是否存在显著性差异,包括单因素方差分析和多因素方差分析。
-
卡方检验15.A.1.1:用于比较两个或两个以上分类变量之间的关联性或显著性差异。
-
方差分析的非参数替代方法:如Kruskal-Wallis检验等,用于比较不满足方差分析假设的数据。
-
线性回归模型:用于研究自变量对因变量的影响是否存在显著性差异。
-
Logistic回归模型:用于研究自变量对二分类因变量的影响是否存在显著性差异。
-
生存分析模型:用于研究生存数据中不同组别之间生存曲线是否存在显著性差异。
根据以下进行区分:
-
研究设计:实验性研究,通常会使用t检验、方差分析等模型来比较不同处理组之间的差异;观察性研究,可能会使用回归模型或生存分析模型等。
-
变量类型:连续变量,可以使用t检验、方差分析等;分类变量,可以使用卡方检验;生存时间数据,可以使用生存分析模型等。
-
数据结构:单因素实验设计,可以使用单因素方差分析;多因素实验设计,可以使用多因素方差分析;如果数据不符合正态分布假设,可以考虑使用非参数检验方法。
-
研究问题:根据研究问题的特点和假设选择合适的显著性差异模型。
问题二:样本选择偏差、T检验、OLS多元线性回归分析
问题三:剔除过程变量、小样本机器学习回归模型、随机森林模型
过程变量:
假设变量 x1、x2 均为变量 y 关于函数 f 的自变量,即 y = f(x1, x2); 且 x1 是变量x2 关于函数 g 的自变量,即 x2 = g(x1)。在上述条件下,一定存在一个替代函数 f ′ 使得 y = f ′ (x1) = f(x1, g(x1)) = f(x1, x2),我们称 x2 是 x1 关于函数 f 的过程变量。注意一下情况需要剔除过程变量。
-
共线性:如果两个或多个过程变量之间存在高度相关性(共线性),可能会导致多重共线性问题,影响模型的稳定性和解释性。
-
低方差:某些过程变量的方差非常小,即它们的取值变化范围非常有限,这种变量对建模结果的影响可能微乎其微。
-
无关变量:某些过程变量可能与目标变量没有实质性的相关性,即它们对目标变量的预测没有帮助。
-
过度拟合:如果模型出现过度拟合的情况,即在训练数据上表现很好,但在新数据上表现不佳,可能是因为模型过于复杂,包含了过多的过程变量。
-
领域知识:建议在剔除过程变量之前,要充分考虑领域知识和专业经验。有时候某个看似不重要的变量实际上在工艺或系统中扮演着重要的角色,剔除它可能导致模型失真。
-
交叉验证:在选择是否剔除过程变量时,可以使用交叉验证等技术来评估模型的性能。通过比较剔除和不剔除某个变量后模型的表现,可以更好地判断是否需要保留该变量。
小样本机器学习回归模型
通常用于处理数据量较小的情况下的回归分析问题。以下是一些常见的小样本机器学习回归模型:
-
岭回归(Ridge Regression):岭回归是一种线性回归的扩展,通过引入L2正则化项来控制模型的复杂度,防止过拟合。在小样本数据情况下,岭回归可以有效提高模型的泛化能力。
-
Lasso回归(Lasso Regression):Lasso回归是另一种线性回归的扩展,使用L1正则化项来实现特征选择,能够自动筛选出最重要的特征,适用于小样本数据的情况。
-
弹性网络回归(Elastic Net Regression):弹性网络回归是结合了岭回归和Lasso回归的方法,同时使用L1和L2正则化项,可以克服每种方法的缺点,适用于小样本数据的回归问题。
-
支持向量回归(Support Vector Regression,SVR):SVR是一种非线性回归方法,通过寻找最大间隔来拟合数据,适用于小样本情况下的回归分析。
-
决策树回归(Decision Tree Regression):决策树回归是一种基于树结构的回归方法,可以处理非线性关系和复杂特征交互,适用于小样本数据的回归建模。
-
随机森林回归(Random Forest Regression):随机森林是一种集成学习方法,通过多个决策树的组合来提高模型的性能,对小样本数据具有较好的泛化能力。
-
梯度提升回归(Gradient Boosting Regression):梯度提升是一种迭代的集成学习方法,通过逐步优化残差来构建回归模型,适用于小样本数据的回归问题。
-
神经网络回归(Neural Network Regression):神经网络是一种深度学习模型,可以适用于小样本数据的回归分析,通过多层神经元的连接来学习复杂的模式。
问题四:相关性分析,Spearman 相关系数
模型评价
(写论文的时候用到了哪个就搜索关键词,把他写到论文里)