- 博客(21)
- 收藏
- 关注
原创 从模型构建到在线部署:基于Stacking集成模型的全流程实现与SHAP可视化
在机器学习和数据科学领域,构建高效的预测模型只是第一步,如何将模型成果落地应用至关重要,借助在线部署工具,可以实现模型的实时预测与可视化交互,为用户提供直观的分析支持。逐步拆解Stacking结构,分别解释基学习器和元学习器的行为,将Stacking模型视为整体的“黑箱”进行解释(仅关注输入特征与最终预测输出的关系),详情参考文章——通过Stacking回归器结合多个基学习器(如随机森林、XGBoost等)和线性回归元学习器,构建了一个集成学习模型并完成训练,用于提升预测性能,详情参考——
2024-12-21 16:48:48
1612
原创 期刊配图:多种机器学习算法在递归特征筛选中的性能变化图示
递归特征筛选(Recursive Feature Elimination, RFE)是一种常见的特征选择方法,其核心思想是基于模型自带的特征重要性排名,结合设定的步长和最低保留特征数量,对特征集进行逐步递归地筛选。在每次迭代中,根据模型计算的特征贡献度(如基于随机森林的Gini重要性或基于Boosting算法的分裂增益等),剔除一部分排名最低的特征,直到达到设定的最低特征数量或性能平衡点,该方法能够在减少特征数量的同时尽量保持模型性能的稳定性。
2024-12-21 16:44:09
913
原创 分类模型的预测概率解读:3D概率分布可视化的直观呈现
通过生成时间序列数据,将数值分布映射到三维空间,直观展示不同类别的数值随时间变化的趋势,基于这个代码的可视化方式,接下来进一步探索如何将分类模型的概率分布用同样的可视化进行映射。在所有类别上添加了概率值的文本标注,使得每个样本在每个类别的具体预测概率都可以直接观察到,进一步增强了3D可视化的细节和解释性,适合更精确的模型分析和展示,通过3D可视化展示了分类模型的预测概率分布,以样本索引为X轴、类别为Y轴、概率值为Z轴,并使用不同颜色区分类别,使模型的分类结果更加直观。
2024-12-20 23:25:12
1085
原创 融合机器学习算法:用VotingClassifier实现分类多模型的投票集成
在软投票分类器中,由于最终预测结果是基于模型预测概率的加权平均,这就要求每个参与投票的模型能够返回预测概率分布。使用硬投票和软投票分类器对测试集进行预测,并通过分类报告(classification_report)评估两种投票方式的分类性能,包括精确率、召回率和F1分数等指标,从结果中可以看出,软投票的总体准确率(accuracy)略高于硬投票(0.83 vs 0.82),并且在分类报告中,软投票在多个指标(如精确率和加权平均分数)上表现更优,表明软投票更好地综合了各模型的预测概率信息。
2024-12-20 23:19:06
2054
原创 优化SHAP主效应图拟合曲线与交点标注直观展示特征影响变化与趋势
同时,通过绘制SHAP值为0的基准线,明确了正负效应的分界点,为分析特征影响的变化趋势提供了更清晰的可视化支持。,即该特征在独立作用时对模型预测的贡献,这种方式剥离了交互效应的影响,更加直观地展现了主效应的变化趋势,为分析特征的独立作用提供了清晰的视角,有助于更深入地理解模型的特征行为,详情参考文章——绘制多个特征的SHAP主效应值散点图,结合LOWESS拟合曲线展示特征值与主效应值的趋势,并标注拟合曲线与SHAP值为0的交点,直观呈现特征影响的关键变化点,然而,仅仅展示主效应值的分布还不够直观。
2024-12-19 18:24:50
1529
原创 置信区间+误差条:机器学习分类评价指标精美呈现
将训练集、验证集和测试集的模型评价指标及其置信区间绘制在同一张图表中,并通过对Y轴的微小偏移(y_offset)将不同数据集的相同指标错开排列,同时使用不同颜色和标记区分数据集,使得不同数据集的指标表现更直观地比较。这里的 calculate_metrics_with_ci 是一个自定义函数,用于计算分类模型的多项评价指标(如准确率、精确率、召回率、F1分数等),并通过Bootstrap重抽样方法为这些指标估算出置信区间,结合,可视化呈现时,不仅能直观地展示模型性能,还能帮助评估结果的可靠性与波动范围。
2024-12-19 18:09:38
843
原创 nature medicine二分类结局随机森林模型构建与评估复现
通过机器学习构建的ECG-SMART数据模型,实现对冠状动脉闭塞型心肌梗死(OMI)的诊断,本次复现聚焦于ECG-SMART数据模型在二分类任务中的随机森林算法构建与评估,基于公开数据及算法流程,模拟原始研究的核心方法。需要特别指出的是,此次复现仅作为学习参考,旨在探索其实现细节与应用潜力。
2024-12-11 21:42:13
915
原创 全新神经网络架构KAN回归分析:PDP(部分依赖图)、ICE(个体条件期望)解释教程
这里创建一个KAN:8D输入(自变量),1D输出(因变量),2个隐藏的神经元,三次样条 (k=3),3个网格间隔 (grid=3),读者可以利用网格细化来最大限度地提高 KAN 的拟合功能能力,修改网格间隔得到更细粒度的KAN,以及修改其它参数来增加模型拟合度,这里就不去展示如何去进行模型调参,接下来训练模型。到这一步我们就完成了KAN模型的评价,利用拟合的公式对测试集数据进行预测,并进行真实值、预测值散点可视化,最后输出模型各种评价指标,如果不满这个拟合效果,可以对模型进行参数调整以得到最优模型。
2024-07-07 18:39:22
1730
原创 论文作图 seaborn 实现多边缘可视化
这是一个简单的联合分布,边缘可视化只存在一种可视化类型——密度图,而在论文中一般会看到边缘分布可视化会存在多种类型的可视化,如何绘制这种可视化呢?这里边缘可视化存在柱状图、密度图两种可视化,读者可根据自己的需求去添加修改可视化类型,这里由于数据原因密度图并不明显,下面更换指标再进行可视化。,对于其中如何根据联合分布图绘制多边缘可视化存在疑问这里以一篇短小的文章来实现这个可视化。由于复制粘贴会损失图片dpi请移步公众号原文观看获得更好的观感效果(关注公众号获得更多。
2024-07-07 18:29:22
1043
原创 SOFTS模型的单特征时间序列预测实现
交叉验证输出的预测结果:交叉验证通常会对数据进行多次划分,每次划分得到一个模型,并对验证集进行预测,因此,nf_preds 中包含了多次预测的结果,每次预测结果可能会略有不同,这里选择最佳预测结果:通过计算每个时间点的预测误差,并选择误差最小的预测结果,可以提高模型在验证集上的表现评估,这里的DataFrame各指标的含义为:单个时间点的唯一标识符、时间戳、预测截止时间、模型预测值、实际观测值以及它们之间的误差。h=horizon:预测的时间跨度,即模型要预测的未来时间点数量。
2024-07-06 12:00:33
1171
原创 综合多种梯度提升模型:LightGBM、XGBoost、CatBoost与NGBoost的集成预测
如果你对类似于这样的文章感兴趣。欢迎关注、点赞、转发~
2024-07-06 11:52:36
1774
原创 时间序列预测神器Prophet python实现
总体而言,Prophet模型通过这些组件的组合来建模时间序列数据中的趋势、季节性、假期效应和噪声。"Prophet" 指的是由 Facebook 开发的一种用于时间序列分析和预测的工具。Prophet 在 R 和 Python 中都有实现,由于其能够以极小的工作量生成准确且易于解释的预测,因此在各个行业中广受欢迎。要使用 Prophet,通常需要提供一个包含两列的时间序列数据集:'ds'(日期)和 'y'(要预测的值)。可调参数:可以调整各种参数以定制模型的行为,例如季节性组件的强度和趋势的灵活性。
2023-12-02 13:55:51
2227
1
转载 主成分分析PCA
使得原始数据从64*1797变为13*1797,通过这样的操作,实现了对手写数字数据集的降维,保留了累计贡献率大于80%的主成分。如果需要保留尽可能多的信息以最大程度地保持数据的结构和特征,那么可以选择更高的累计贡献率。累计贡献率大于90%:如果对数据的信息损失非常敏感,可以选择一个更高的阈值,例如累计贡献率大于90%。累计贡献率大于80%:这是一个常见的起始点,特别是在维度减少的情况下,选择累计贡献率大于80%的主成分通常可以保留大部分数据的信息,同时降低维度。执行数据的中心化操作。
2023-12-01 14:00:52
529
1
转载 python交互性可视化
可以进行高效、清晰的数据分析和表示,帮助将数据从Pandas DataFrame转换为易于观察的交互式数据透视表,便于对数据进行探索和分析,特别是在处理大型数据集或希望为用户提供灵活工具以探索数据关系时非常有用。使用工具如:Pivottablejs、Plotly、Bokeh等,可以创建交互性的图表和图形,让用户能够直观地理解数据趋势、关系和分布。利用Pivottablejs生成交互式的数据透视表,通过在表格上拖动字段以及对字段进行放置,实现对数据的动态汇总和分析,以更直观地理解数据的关系。
2023-12-01 13:54:58
631
1
原创 t-sne算法python实现
t-SNE的主要目标是保持相似性关系,即在高维空间中距离较近的数据点在低维空间中仍然保持较近的距离,而距离较远的数据点在低维空间中仍然保持较远的距离。然而,需要注意的是,t-SNE的计算复杂性较高,对数据的不同初始化和参数选择可能会导致不同的结果,因此需要谨慎使用和解释。这些分布衡量了在高维空间中给定数据点之间的相似性时,对应的低维空间中数据点的相似性。计算相似度:首先,计算高维数据中每对数据点之间的相似度。初始化低维嵌入:随机初始化低维空间中的数据点位置,这些点通常是在低维空间中的均匀分布。
2023-11-02 19:17:30
532
1
原创 天气数据的爬虫获取与建模分析
作为气象专业常见的图表之一,风玫瑰图主要用来统计一段时间内风向、风速发生的频率,其花瓣越长表示该风向的频率越高,单个花瓣上的不同颜色表示风速的分布情况。天气预报的制作和发布是非常复杂的过程,现行的天气预报的发布一般包括数据收集、数据分析、预报会商、产。本部分将尝试使用机器学习中的回归算法,对北京的次日最高气温进行预测,并评估模型的性能。多元线性回归与一元线性回归类似,只是多元线性回归需要添加预测变量的数量及其相应的系数。利用机器学习,通过一元线性回归、多元线性回归的方法,对气温进行预测。
2023-09-25 10:02:46
1327
1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅