自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(24)
  • 收藏
  • 关注

原创 数量优势:使用Bagging和Boosting的集成模型

本文深入解析了机器学习中两种核心集成学习技术——装袋法(Bagging)和提升法(Boosting)。装袋法通过自助采样生成多个训练集,构建独立的基础模型进行预测平均,有效降低高方差模型的预测波动。提升法则采用序列化建模方式,每个新模型专注于修正前序模型的残差,从而系统性地减少预测偏差。

2025-05-25 18:50:27 1061

原创 A2A与MCP:差异、协同及企业级应用解析

A2A(智能体间协议)与MCP(模型上下文协议)是生成式AI两大核心标准,分别解决不同层面的问题。A2A由谷歌主导,聚焦智能体间协作通信(如任务分配与状态同步);MCP由Anthropic提出,专注智能体与外部工具/数据的连接(如API调用)。两者功能互补:A2A实现跨系统工作流编排,MCP扩展单智能体执行能力。典型协同场景中,MCP作为底层工具接口,A2A负责上层任务调度(如供应链智能体协作)。企业应用需结合两者优势,构建“可对话、会执行、可扩展”的智能体网络。主流厂商(微软、Anthropic等

2025-05-25 18:44:43 742

原创 机器学习的下一个前沿是因果关系吗?

因果关系是原因和结果之间的关系。例如,吸烟会增加患肺癌的风险。与相关性不同,因果关系表明了观察到的变化背后的驱动力。

2025-04-09 21:12:02 610

原创 SHAP 能帮我们精准看穿预测模型的因果关系吗?

因果推断能够提供帮助的第二种情况是非混杂冗余。当我们想要其因果效应的特征,对模型中包含的另一个特征具有因果驱动作用,或者受该特征驱动,但该其他特征并非我们感兴趣特征的混杂因素时,就会出现这种情况。# 互动次数和销售电话次数彼此之间高度冗余。销售电话次数这一特征就是一个例子。销售电话次数直接影响客户留存,但也通过互动次数对客户留存产生间接影响。当我们在模型中同时包含互动次数和销售电话次数这两个特征时,这两个特征共有的因果效应会被迫在它们之间分摊。

2025-04-09 21:11:09 779

原创 学界和业界的因果推断有何不同?

在数据科学领域,因果推断的应用一直是学界和业界关注的焦点。近期,我发现一篇剖析学术与工业场景下因果推断异同的博客 ——[How is Causal Inference Different in Academia and Industry?为了让更多读者深入了解,我将对其进行翻译分享,希望能给大家带来启发与思考。

2025-04-09 21:09:33 741

原创 CausalML 基于机器学习算法的因果推理方法

CausalML是一个 Python 包,它使用基于最新研究的机器学习算法提供一套提升建模和因果推理方法。它提供了一个标准界面,允许用户从实验或观察数据中估计条件平均处理效应 (CATE),也称为个体治疗效应 (ITE)。从本质上讲,它估计了干预 W 对具有观察到特征 X 的用户的结果 Y 的因果影响,而无需对模型形式进行强有力的假设。在本节中,我们将更深入地探究CausalML中所实现的算法。我们采用内曼 - 鲁宾潜在结果框架,并假定代表结果,代表处理分配,Xi​代表观测到的协变量。

2025-04-09 21:07:28 1350

原创 ExplaineR:集成K-means聚类算法的SHAP可解释性分析 | 可视化混淆矩阵、决策曲线、模型评估与各类SHAP图

加载数据集并训练机器学习模型SHAP 分析以提取特征对预测的影响通过混淆矩阵可视化模型性能决策曲线分析模型评估(多指标和ROC曲线的目视检查)带注释阈值的 ROC 曲线加载 SHAP 结果以进行下游分析与特征值关联的 SHAP 值特征的部分依赖图提取特征值和预测概率作为模型的输出进行分析运行一个 Shiny 应用程序来可视化 2-way 部分依赖图由 SHAP 集群确定的患者亚组模型公平性(敏感性分析)模型参数。

2025-01-10 15:45:44 1583

原创 XGBoost 分类模型优化:超参数调优与性能提升的协同攻略

在机器学习中,超参数优化或调整是为学习算法选择一组最佳超参数的问题。超参数是一个参数,其值用于控制学习过程。相比之下,其他参数(通常是节点权重)的值被学习。超参数调整过程是走钢丝,以实现欠拟合和过拟合之间的平衡。欠拟合是指机器学习模型无法减少测试或训练集的误差。模型超参数的一些例子包括:逻辑回归分类器中的惩罚,即L1或L2正则化。训练神经网络的学习率。支持向量机的C和sigma超参数。

2025-01-05 02:01:59 1605

原创 基于LR/GNB/SVM/KNN/DT算法的鸢尾花分类和K-Means算法的聚类分析

实现了多种机器学习模型,如逻辑回归、高斯朴素贝叶斯、支持向量机和 K 最近邻等,并对每个模型进行了拟合和性能评估,包括训练和测试准确率、分类报告、混淆矩阵、ROC AUC 曲线、学习曲线和特征重要性等。

2024-12-21 17:29:51 1582

原创 广义随机森林算法(GRF)估计条件平均处理效果(CATE)

本节以因果森林的工作原理为例,快速介绍广义随机森林(GRF)背后的一些概念性思想。它首先描述了在估计平均处理效应时,如何利用现代机器学习工具箱的预测能力进行非参数化控制混杂因素,以及如何将布雷曼(2001)的随机森林重新用作自适应最近邻查找器来检测处理效应的异质性。sum(!t.test(W ~!#>#>在整个过程中,我们将倾向得分固定为“W.hat = 0.5”,因为我们知道这是一项随机对照试验(否则我们将为“W.hat”拟合一个倾向模型,并检查估计概率的直方图以评估重叠假设的合理性)。

2024-12-19 16:40:26 2187

原创 面向经济学家的双重机器学习(DML):实用指南、最佳实践和常见陷阱

监督学习(Supervised Learning)定义:使用带有标签的数据训练模型,目标是学习输入(自变量)与输出(因变量)之间的映射关系。应用场景:DML 框架主要依赖监督学习来估计干扰函数,处理连续变量和离散变量的回归任务。根据因变量的类型,选择合适的评估指标来量化样本外性能。这是确保模型选择合理性和可靠性的第一步。定义:将数据分为k个不重叠的子集,每次用其中k−1个子集训练模型,用剩余一个子集测试性能。重复k次后取平均结果作为模型性能。优点。

2024-12-17 12:33:50 3841 1

原创 经典NLP案例 | 推文评论情绪分析:从数据预处理到模型构建的全面指南

由于所有推文每秒都在传播,很难判断特定推文背后的情绪是否会影响一家公司或一个人的品牌,因为它的病毒式传播(积极),或者因为它的负面基调而破坏利润。在决策和反应在几秒钟内创建和更新的时代,用语言捕捉情感非常重要。但是,哪些词实际上导致了情感描述呢?在本次比赛中,您需要选出推文中反映情绪的部分(单词或短语)。利用这个广泛的推文数据集帮助您培养在这一重要领域的技能。努力提高你的技术,在这场比赛中占据榜首。推文中的哪些词语支持积极、消极或中立的情绪?您如何使用机器学习工具帮助做出决定?在本次比赛中,我们从 Figu

2024-12-11 01:13:15 1640

原创 因果机器学习EconML | 客户细分案例——基于机器学习的异质性处理效果估计

机器学习的最大承诺之一是在众多应用领域中实现决策自动化。在大多数数据驱动的个性化决策场景中出现的一个例如,这个问题出现在个性化定价中,其目标是根据消费者的特征来估计价格折扣对需求的影响。同样,它出现在医学试验中,其目标是根据患者特征估计药物治疗对患者临床反应的影响。在许多此类环境中,我们有大量的观察数据,其中处理是通过一些未知的策略选择的,并且运行 A/B 测试的能力是有限的。

2024-11-24 21:26:43 1893

原创 “正大杯”市调方法论 | 目标客户群体聚类分析 主成分分析&聚类可视化

在市场调研的广阔天地中,“正大杯”全国大学生市场调查与分析大赛一直是创新与实践的沃土。众多参赛作品中,这种方法不仅帮助参赛者深入理解数据,更在多个获奖作品中发挥了关键作用。例如。

2024-11-19 23:49:06 2769

原创 竞赛思享会 | 2024年第十届数维杯国际数学建模挑战赛D题【代码+演示】

本题旨在通过对中国特定城市的房产、人口、经济、服务设施等数据进行分析,评估其在应对人口老龄化、负增长趋势和极端气候事件中的韧性与可持续发展能力。主要目标包括未来房价和房屋存量预测、服务水平量化分析、韧性与可持续发展能力评估,以及根据分析结果为城市未来发展提供规划建议。

2024-11-16 03:49:27 2212

原创 【项目实战】机器学习分类预测(RF/SVM/Logistic)与可解释性分析(SHAP/LIME)

们首先通过数据探索发现某些特征(如年龄)可能是预测中风的关键指标。在进行广泛的可视化分析后,我们尝试了多种模型,包括随机森林、SVM和逻辑回归,并对它们进行了超参数调优。虽然随机森林模型的准确率最高,但经过调整的逻辑回归模型在召回率和F1分数上表现最佳,因此最终选择了逻辑回归模型。为了进一步理解随机森林的高准确率,我们分析了特征的重要性,并引入了SHAP方法来解释模型的预测过程。最后,为了更好地展示特征间的相互影响,我们在逻辑回归模型上使用了LIME和ELI5,以便深入理解特征如何影响最终的预测结果。

2024-11-10 13:22:06 1542

原创 数模创新时序预测算法 | CEEMDAN-CNN-LSTM算法

CEEMDAN(Complete Ensemble Empirical Mode Decomposition with Adaptive Noise)是一种信号分解方法,将复杂时间序列分解成多个内在模态函数(IMFs)。每个IMF代表了不同频率的信息,有助于将数据分解成较为独立的分量,便于特征提取。

2024-11-01 14:05:52 1604

原创 数模创新算法篇 | 基于CEEMDAN分解与LSTM模型的电力负荷预测

定义一个函数来整理数据,以适应LSTM模型的输入return res这个函数用于整理数据,使其适合作为LSTM模型的输入。它根据输入参数的不同,可以处理单输入单步预测、单输入多步预测、多输入单步预测和多输入多步预测。这个函数定义了一个LSTM模型,包括输入层、一个LSTM层和一个输出层。模型编译时使用了均方误差作为损失函数,Adam作为优化器。# 定义一个函数来创建LSTM模型# 定义一个函数来创建LSTM模型# 创建模型的输入层,输入的形状为vp_train的第二维和第三维(时间步和特征数)

2024-10-16 23:56:46 1784

原创 数模创新算法篇 | 自适应噪声完备集合经验模态分解算法(CEEMDAN)

CEEMDAN是Complete Ensemble Empirical Mode Decomposition with Adaptive Noise的缩写,即完全集成经验模态分解与自适应噪声。它是一种用于处理非线性和非平稳信号的先进信号分解技术。CEEMDAN算法通过引入自适应噪声和多次迭代的方式,有效地解决了传统经验模态分解(EMD)中的模态混叠问题,提高了分解的准确性和稳定性。定义一个函数,使用CEEMDAN方法对时间序列数据进行分解,返回分解后的DataFrame。

2024-10-12 00:02:58 6177

原创 数模国赛冲刺 | 预测类创新算法CNN-GRU、CNN-LSTM、CNN-BiGRU、CNN-BiLSTM、CNN-BiGRU-Attention、CNN-BiLSTM-Attention

CNN-GRU模型是卷积神经网络(CNN)与门控循环单元(GRU)的结合体。CNN擅长从输入数据中提取空间特征,而GRU用于处理时间序列,捕捉序列数据中的时间依赖性。该组合特别适用于需要同时分析空间和时间特征的数据,如图像字幕生成、视频分析等任务。CNN-LSTM模型是卷积神经网络(CNN)与长短期记忆网络(LSTM)的结合体。CNN用于从输入数据中提取空间特征,而LSTM用于处理时间序列数据,捕捉长时间的序列依赖性。该模型适用于需要同时分析空间特征和时间特征的数据,如文本生成、视频分析等任务。

2024-09-02 21:18:58 4709

原创 数模国赛冲刺 | 预测类创新算法 TCN-GRU/BiGRU

因果卷积由一维卷积组成,其输出基于上一层当前时刻和更早时刻的输入联合生成,是一种严格遵循时间约束的模型,适用于挖掘时序数据的潜在特征。该模型充分利用了 TCN 在局部特征提取和捕捉时序数据中远距离依赖关系的能力,以及 BiGRU 在全局上下文理解和双向信息流处理上的优势,从而更全面地捕捉时序数据中的相关信息,同时更好地建模时序数据中的长期依赖关系,最终实现提高预测精度的目标。GRU层:TCN层的输出被传递到GRU层,GRU通过其门机制进一步捕捉数据中的序列依赖性,尤其是处理长程依赖的情况下非常有效。

2024-08-27 00:46:18 1517

原创 数模国赛冲刺 | 数据预处理方法合集(特征工程、数据降维、数据划分、数据平衡)

交叉验证通过将数据集划分为多个互斥的子集,每次使用其中一个子集作为验证集,其他子集作为训练集,反复进行训练和验证,从而更全面地评估模型的性能。主成分分析(PCA)是一种线性降维技术,通过将数据投影到方差最大的方向上,从而减少数据的维度。EasyEnsemble是一种集成方法,它通过对多数类进行多次随机欠采样,生成多个平衡的子集,并训练多个分类器,将这些分类器的结果集成。首先通过SMOTE合成新的少数类样本,接着使用ENN算法删除数据集中可能包含噪声的多数类样本,从而在增加少数类样本的同时清理数据。

2024-08-26 14:26:31 1696

原创 数模国赛冲刺 | 数据预处理方法合集(数据清洗、数据变换与数据编码)

数据清洗是数据分析和机器学习中的关键步骤,它包括多个方面:处理缺失值,识别并处理异常值,删除重复数据,以及应用数据变换技术。数据变换可能包括标准化(将数据缩放到0到1之间),归一化(调整数据至均值为0,标准差为1),对数变换以处理偏态分布,Box-Cox和Yeo-Johnson变换以稳定方差并使数据更接近正态分布,以及分位数变换以将数据转换为均匀分布。此外,数据编码是将分类变量转换为数值形式的过程,包括标签编码、独热编码、二值化、频数编码、目标编码、哈希编码和分箱编码。这些清洗和转换步骤确保了数据的质量和一

2024-08-25 20:50:13 2914 1

原创 降维打击!数模国赛用什么方法才能拿国奖?

在数学建模的战场上,如何才能迅速脱颖而出,拿下那备受瞩目的国赛大奖?今天,Easy数模将带你走进一个全新的视角,借助中那些“高阶玩家”的成功经验,助你轻松应对本科数学建模国赛,冲刺国奖。研究生数学建模比赛中的优秀论文常常展现出更加宏观的视野。相较于本科生比赛中的“解题式”思维,研究生比赛更注重全局观念和整体模型的搭建。如何借鉴这一思路?从问题的定义到模型的建立,再到求解与优化,每一步都要精细而系统。Fig1:优秀论文研究框架图研究生建模的一个关键技巧是如何在复杂问题中找到核心变量,进行适当的简化。

2024-08-25 20:34:30 1450

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除