【机器学习-深度学习】算法
文章平均质量分 94
本内容专为本科生、研究生梳理,将通俗讲解算法的核心原理、实现流程、实战案例及算法优劣,兼顾理论理解与实际应用。
DeepModel
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
机器学习降维:因子分析(Factor Analysis)通俗完整版
本文通俗易懂地介绍了因子分析(Factor Analysis)这一降维方法。主要内容包括: 核心概念:因子分析通过挖掘可观测指标背后的潜在因子(如学习能力、活跃程度)来降维,并区分公共因子和噪声。 关键流程:数据标准化→确定因子数→估计载荷→因子旋转→计算得分→解释命名。 实际应用:通过学生数据案例演示代码实现,展示如何从6个学科成绩中提取2个潜在因子。 对比分析:与PCA相比,因子分析具有更好的可解释性,适合问卷、社科等领域,但假设更严格。 适用场景:当需要解释数据背后的潜在原因时推荐使用,而单纯追求降维原创 2026-04-03 22:30:18 · 659 阅读 · 0 评论 -
机器学习降维核心:奇异值分解 SVD
SVD:机器学习的降维核心工具 奇异值分解(SVD)是线性降维的数学基础,广泛应用于PCA、数据压缩和推荐系统。它将任意矩阵分解为旋转、拉伸、再旋转三步($A=U\Sigma V^T$),通过保留前k个最大奇异值实现最优低秩近似。SVD优势包括通用性、数值稳定性和信息量化,但计算复杂度高且仅适用于线性数据。实战中可通过截断SVD和累计能量法(如保留90%信息)提升效率。相比PCA、NMF等方法,SVD在数学最优性上更突出,但需根据数据特性(如非线性或稀疏性)选择替代方案。代码示例展示了手写数字的降维与重构效原创 2026-04-03 22:23:44 · 631 阅读 · 0 评论 -
机器学习非线性降维:局部线性嵌入 LLE
文章摘要 LLE(局部线性嵌入)是一种专门处理非线性流形数据的降维方法,核心思想是通过保持局部线性关系来展开弯曲的高维数据(如瑞士卷)。其算法分为三步:1)找K近邻;2)计算局部重建权重;3)保持权重不变进行低维嵌入。LLE能完美展开复杂流形,但计算量大且对参数敏感。相比PCA等线性方法,LLE擅长处理非线性结构;相比t-SNE等算法,它更注重局部几何保持。适用于中小规模流形数据(如瑞士卷、螺旋结构),但不适合大规模数据或需要保持全局距离的场景。关键技巧包括调整K值、数据标准化和使用正则化改进版本。原创 2026-04-02 08:42:27 · 438 阅读 · 0 评论 -
机器学习非线性降维:核PCA(Kernel PCA)
核PCA是传统PCA的非线性增强版,专门处理环形、双月形等复杂分布数据。其核心思想是通过核函数隐式映射到高维空间,使非线性结构线性化后再降维。本文详细讲解了核PCA的原理、数学公式、算法流程,并提供了完整的Python代码示例,展示如何用RBF核处理双月形数据。文章还对比了核PCA与传统PCA及其他降维算法的优缺点,给出了适用场景建议和使用技巧。核PCA特别适合中小规模非线性数据,能显著提升分类效果,但需注意参数调优和计算效率问题。原创 2026-04-02 08:32:30 · 514 阅读 · 0 评论 -
机器学习降维:多维尺度分析 MDS
MDS 是“距离还原神器”,只靠样本间距离就能生成低维可视化,完美保留全局相对位置,特别适合小样本、相似度分析、关系图谱场景,是数据分析与可视化必备工具。原创 2026-04-01 20:04:13 · 507 阅读 · 0 评论 -
机器学习非线性降维:Isomap 等距映射
Isomap是一种专门处理非线性流形数据的降维算法,能有效解决PCA无法处理的卷曲数据问题。其核心思想是通过构建邻域图计算最短路径来近似真实测地距离,再用MDS方法降维保留全局结构。文章详细讲解了Isomap的三步算法流程(邻域图构建、测地距离计算、MDS降维),并提供了瑞士卷数据的实战代码演示。Isomap适用于中小规模非线性数据,能完美展开卷曲结构,但计算复杂度较高。与其他降维方法相比,Isomap在保留非线性流形全局几何结构方面具有独特优势,是学习非线性降维必须掌握的核心算法。原创 2026-04-01 20:00:25 · 477 阅读 · 0 评论 -
【特征选择与降维】主成分分析 PCA
本文通俗易懂地介绍了主成分分析(PCA)这一经典降维方法。首先阐述了PCA的应用场景:解决高维数据计算慢、冗余强、过拟合等问题。然后详细讲解了PCA的核心思想(最大化投影方差)和5个关键步骤:数据标准化、计算协方差矩阵、特征值分解、选择主成分和数据投影。文章通过鸢尾花数据集展示了PCA实战应用,对比了降维前后的分类效果,并总结了PCA的优缺点及适用场景。最后强调PCA是无监督线性降维工具,能有效实现特征去冗余、提速和可视化,是机器学习中基础实用的特征处理方法。全文包含公式推导、代码实现和面试要点,适合不同层原创 2026-03-31 10:23:13 · 391 阅读 · 0 评论 -
【特征选择】信息增益
本文通俗讲解了机器学习中信息增益的特征选择方法。信息增益通过计算特征带来的不确定性减少量(IG=H(D)-H(D|A))来评估特征重要性,IG越大表示特征越有用。文章详细介绍了熵、条件熵和信息增益的计算原理,并提供了Python实现代码和实战案例。信息增益适合离散特征,具有直观、计算快的优点,但会偏向取值多的特征且不能直接处理连续值。最后对比了不同特征选择方法的优缺点,建议根据数据类型和场景选择合适的方法。原创 2026-03-31 10:18:25 · 448 阅读 · 0 评论 -
【特征选择】相关系数法
本文介绍了机器学习中常用的特征选择方法——相关系数法。该方法通过计算特征间的皮尔逊相关系数,识别并删除高度相关的冗余特征,从而简化模型、防止过拟合。文章详细讲解了相关系数法的原理、实施步骤(计算相关矩阵、绘制热力图、设定阈值筛选),并提供了完整的Python实战案例(房价预测),展示了从数据生成到模型评估的全过程。该方法简单直观、计算快速,尤其适合处理线性关系明显的特征,但也存在仅适用于连续变量、无法识别非线性关系等局限性。最后总结了适用场景和优缺点,为数据预处理提供了实用指南。原创 2026-03-31 10:11:44 · 526 阅读 · 0 评论 -
【特征选择】基于树模型的特征选择
树模型特征选择是工业界最常用、最稳定的特征选择方法。它通过训练决策树、随机森林等模型自动评估特征重要性,无需数据预处理或线性假设,能捕捉非线性关系和特征交互。核心原理是利用信息增益或基尼系数计算特征对模型纯度的贡献度。本文提供了完整的Python实战案例(加州房价预测),涵盖特征重要性计算、可视化、自动特征选择和模型优化。树模型特征选择具有全自动、非线性友好、高维适用等优势,特别适合工业项目、数据竞赛和学术研究,是机器学习建模的必备技能。原创 2026-03-29 09:54:12 · 426 阅读 · 0 评论 -
【特征选择】互信息法
本文全面介绍了特征选择中的互信息法(Mutual Information),这是一种强大通用的特征选择方法。文章首先通过通俗易懂的比喻解释互信息法原理,即衡量特征能提供多少关于目标变量的信息。重点阐述了互信息法的三大优势:能捕捉非线性关系、不要求正态分布、适用于分类和回归任务。通过Python实战演示了完整流程:数据预处理、计算互信息、特征排序和选择、模型训练评估。文章还总结了互信息法的优缺点及适用场景,强调其在处理复杂关系数据时的独特价值。最后提供简明总结,帮助读者快速掌握这一特征选择利器。原创 2026-03-29 09:49:55 · 483 阅读 · 0 评论 -
【特征选择】方差阈值法
摘要 方差阈值法是一种简单高效的特征选择方法,通过计算各特征的方差并设定阈值来筛选有效特征。核心原理是删除方差接近0的"无效特征"(如全班性别几乎一致),保留有显著波动的特征(如考试成绩差异大)。使用前需对数据进行标准化处理以避免量纲影响。实战演示以鸢尾花数据集为例,通过Python实现特征筛选流程,包括数据标准化、方差计算、阈值设定(如0.5)、特征筛选及模型性能对比。结果显示该方法能有效减少特征维度(如从4个减至2个)同时保持模型准确率,是特征工程的基础工具。原创 2026-03-23 14:48:57 · 617 阅读 · 0 评论 -
【特征选择】单变量特征选择
单变量特征选择是机器学习中一种简单高效的特征筛选方法,通过单独评估每个特征与目标变量的相关性来筛选有用特征。本文介绍了三种核心方法:卡方检验(适用于分类特征和分类目标)、F检验(适用于连续特征和分类目标)以及互信息(适用于任意特征类型且能捕捉非线性关系)。文章还提供了Python实战示例,展示了如何在葡萄酒分类数据集上应用F检验和互信息进行特征选择,包括数据预处理、特征筛选和结果可视化。该方法适合作为特征选择的初步筛选工具,能有效减少特征维度并提升模型性能。原创 2026-03-23 14:41:05 · 567 阅读 · 0 评论 -
【特征选择方法】L2正则化(岭回归)
摘要: L2正则化(岭回归)通过向损失函数添加参数平方和惩罚项(λ‖w‖²),有效控制模型过拟合与多重共线性问题。其核心优势包括:1)压缩不重要特征系数实现软筛选;2)均衡相关特征权重提升稳定性;3)通过解析解(XᵀX + mλI)⁻¹Xᵀy确保计算可行性。与L1正则化相比,L2保留所有特征但系数趋近0,更适合需要特征解释性的场景。实战中需注意特征标准化,并通过交叉验证选择最优λ值(如加州房价预测案例所示)。该方法在保持模型泛化能力的同时,实现了隐式特征选择。原创 2026-03-22 10:34:44 · 648 阅读 · 0 评论 -
【特征选择方法】L1正则化(Lasso)
L1正则化(Lasso)特征选择实战指南 L1正则化(Lasso)是机器学习中用于特征选择和防止过拟合的重要方法。它能自动将不重要特征的系数压缩为0,实现建模与特征筛选同步完成。本文详解L1正则化的核心原理、数学公式和Python实现: 核心原理 通过添加系数绝对值之和(L1范数)作为惩罚项,迫使不重要特征的系数归零 相比L2正则化(岭回归),L1能产生稀疏解,实现特征选择 关键公式 Lasso目标函数:最小化残差平方和+λ×系数绝对值之和(‖β‖₁) Python实战 数据标准化(必须步骤) 使用Lass原创 2026-03-22 10:23:52 · 668 阅读 · 0 评论 -
【统计检验】正态性检验
正态性检验是统计分析的必备前置步骤,用于判断数据是否符合正态分布。本文系统介绍了3种常用方法:直观的QQ图、适合小样本的Shapiro-Wilk检验和适用于大样本的Kolmogorov-Smirnov检验,并提供了方法选择速查表。通过Python实战演示了数据生成、可视化分析和检验实施的全流程,包括Shapiro-Wilk和K-S检验的代码实现与结果解读。文章还给出了数据非正态时的解决方案,如数据变换(对数、平方根、Box-Cox)或改用非参数检验方法,并总结了正态性检验的优缺点。这些内容为统计分析前的数据原创 2026-03-21 15:24:27 · 642 阅读 · 0 评论 -
【统计检验】卡方检验(χ²)
卡方检验是用于分析两个分类变量关联性的统计方法。它通过比较实际观测值与理论期望值的差异(χ²=∑(O-E)²/E)来判断变量间是否存在显著关联。核心步骤包括构建列联表、计算期望频数(E=行合计×列合计/总数)、求卡方统计量和自由度(df=(行-1)(列-1))。检验结果若p<0.05则表明变量相关。卡方检验不要求数据正态分布,适用于性别、职业等分类数据,在机器学习的特征选择中也有重要应用。Python可通过scipy.stats的chi2_contingency函数快速实现,并配合可视化展示观测值与期原创 2026-03-20 16:41:07 · 655 阅读 · 0 评论 -
【统计检验】非参数检验
摘要:非参数检验是当数据不满足正态分布、存在异常值或样本量较小时的最佳替代方案,相比t检验和方差分析更稳健。本文介绍了三种核心非参数检验方法:Wilcoxon符号秩检验(配对比较)、Mann-Whitney U检验(两组独立比较)和Kruskal-Wallis H检验(多组比较)。通过Python实战演示了如何执行Mann-Whitney U检验进行A/B测试分析,并提供了完整的代码示例。非参数检验的优势在于不依赖数据分布、抗异常值、适用于小样本和等级数据,但功效可能低于参数检验。建议在数据不正态、有异常值原创 2026-03-20 16:38:11 · 648 阅读 · 0 评论 -
【统计检验】方差齐性检验
摘要: 方差齐性检验是进行t检验、方差分析和线性回归前的必要步骤,用于判断不同组数据的离散程度是否相似。文章介绍了方差齐性的概念、检验必要性以及三种常用方法(F检验、Bartlett检验和Levene检验),其中Levene检验最为稳健实用。通过Python实战演示了数据生成、可视化、方差齐性检验及结果解读的全过程,并提供了方差不齐时的解决方案(如Welch检验或数据变换)。核心结论强调:Levene检验为首选方法,p<0.05表示方差不齐,需改用稳健分析方法以确保统计结论可靠性。原创 2026-03-19 21:12:49 · 720 阅读 · 0 评论 -
【统计检验】方差分析(ANOVA)
本文全面介绍方差分析(ANOVA)的核心原理与应用。方差分析用于比较三组及以上数据的均值差异,通过F检验判断组间差异是否显著。文章详细讲解了方差分解公式(SST=SSB+SSE)、F统计量计算及适用条件(正态性、方差齐性、独立性)。提供了完整的Python实现代码,包括单因素和双因素方差分析,以及结果解读方法。方差分析广泛应用于实验效果评估、医学统计、特征选择等领域,是统计检验的重要工具。文末总结方差分析的核心要点:比较多组均值差异,计算F值判断显著性,适用于三组以上数据比较。原创 2026-03-19 21:10:36 · 864 阅读 · 0 评论 -
【统计检验】贝叶斯检验
本文介绍了贝叶斯检验的原理、应用及其与传统假设检验的区别。贝叶斯检验通过贝叶斯定理将先验信念与新数据结合,直接计算假设成立的后验概率,特别适合小样本和需要量化不确定性的场景。文章详细讲解了贝叶斯检验的步骤、核心指标贝叶斯因子,并通过Python实例演示了药物效果对比分析。与传统检验相比,贝叶斯检验能融合先验知识、提供更直观的概率解释,但计算复杂度较高。贝叶斯检验在医学、金融等风险敏感领域尤为适用,是小样本分析和不确定性量化的有力工具。原创 2026-03-18 08:57:04 · 655 阅读 · 0 评论 -
【统计检验】T检验
T检验是统计学中用于小样本、总体标准差未知情况下比较均值差异的检验方法,分为单样本、独立样本和配对样本三种类型。本文详细介绍了T检验的核心概念、适用场景、公式推导及与正态分布的区别,并通过Python代码演示了T分布可视化、独立样本T检验实现及机器学习特征选择应用。文章还总结了T检验的使用步骤和判断标准(p<0.05显著),强调其在数据分析与机器学习中的基础性作用。原创 2026-03-18 08:51:40 · 805 阅读 · 0 评论 -
【统计检验】F检验与F分布
F检验是统计学中用于比较方差的核心方法,主要应用于方差齐性检验、方差分析(ANOVA)和回归显著性检验。其核心思想是通过比较两组数据的样本方差之比(F统计量)来判断总体方差差异,F值越大表明方差差异越显著。F分布由两个独立的卡方分布构成,具有非负性和右偏特性。在机器学习中,F检验常用于特征选择,通过f_regression或f_classif筛选对目标变量有显著影响的特征。实际应用包括农业实验分析、数据建模前的特征筛选等场景。F检验的三大主要用途为:方差齐性检验、方差分析和回归方程显著性检验。原创 2026-03-17 20:39:46 · 633 阅读 · 0 评论 -
【概率分布】指数分布(Exponential Distribution)原理、推导与实战
指数分布是一种连续型概率分布,专门用于描述随机事件之间的时间间隔。它具有以下核心特点:由速率参数λ决定,概率密度随时间指数下降,具有独特的无记忆性(已等待时间不影响剩余时间)。其数学公式包括PDF(λe^(-λx))、CDF(1-e^(-λx))等。该分布与泊松过程密切相关,可从泊松过程严格推导得出。在实际应用中,指数分布广泛用于建模等待时间、设备寿命、信号到达间隔等问题。通过Python可实现数据生成和可视化,并应用于设备寿命预测等机器学习任务。指数分布是随机时间系统的重要建模工具,也是概率论考试的高频考原创 2026-03-17 20:22:19 · 682 阅读 · 0 评论 -
【概率分布】正态分布(高斯分布)原理、可视化与机器学习实战
正态分布是描述大量独立随机因素叠加后结果的分布,典型特征是中间多、两头少、左右对称,呈现完美钟形曲线。若连续型随机变量XXX的概率密度函数为以下形式,则称XXX服从参数为μσ2μσ2的正态分布X∼Nμσ2X∼Nμσ2# 自定义:均值10,标准差2plt.show()正态分布是统计学的基石、机器学习的底层工具形状由μ\muμ(位置)和σ\sigmaσ(宽度)唯一决定对称、钟形、中间集中、两端稀疏中心极限定理保证其普适性。原创 2026-03-17 20:18:48 · 605 阅读 · 0 评论 -
【概率分布】泊松分布的原理、推导与实战应用
泊松分布是描述单位时间/空间内随机事件发生次数的离散概率分布,适用于满足独立性、平稳性和稀有性条件的事件。其概率质量函数为$P(X=k)=\frac{\lambda^k e^{-\lambda}}{k!}$,其中$\lambda$既是均值也是方差。本文详细推导了泊松分布作为二项分布极限形式的数学原理,分析了其与指数分布、正态分布的关系,并通过Python实现可视化验证。泊松分布广泛应用于交通流量、服务请求等计数场景,当$\lambda$较大时近似正态分布,小时间间隔下与指数分布关联。理解泊松分布对概率建模和原创 2026-03-15 21:45:37 · 868 阅读 · 0 评论 -
【概率分布】卡方分布的原理、推导与实战应用
卡方分布由标准正态分布的平方和构造而来,是统计推断中最常用的分布之一,其定义具有严格的数学表述:设Z1Z2ZkZ1Z2...Zk为k个相互独立的标准正态随机变量(即Zi∼N01Zi∼N01),则其平方和构成的随机变量XXX服从自由度为k的卡方分布X∑i1kZi2∼χ2kXi1∑kZi2∼χ2k卡方分布是从标准正态分布衍生的重要分布核心定义:k个独立标准正态变量的平方和,记为χ2。原创 2026-03-15 21:39:54 · 720 阅读 · 0 评论 -
【概率分布】均匀分布的原理、推导与Python实现
本文系统介绍了均匀分布的基本原理与应用。首先区分了离散型和连续型均匀分布,分别推导其概率函数、期望值和方差公式。离散型均匀分布在有限离散点取值概率均等(如骰子),连续型均匀分布在区间内概率密度恒定。文章通过Python代码实现了两种分布的可视化,包括概率质量函数、概率密度函数和随机抽样验证。最后展示了均匀分布在蒙特卡罗方法中的重要应用,如通过单位正方形随机抽样估计圆周率π。全文兼顾理论基础与实践应用,为理解更复杂概率分布奠定基础。原创 2026-03-15 21:37:45 · 728 阅读 · 0 评论 -
【概率分布】几何分布超详细解析
本文详细解析了几何分布的核心概念、性质与公式推导。几何分布是描述独立伯努利试验中首次成功所需试验次数的离散概率分布,具有无记忆性、单参数性等特点。文章通过掷硬币、抽奖等案例直观解释其定义,严谨推导了概率质量函数、累积分布函数、期望和方差等核心公式,并证明了无记忆性这一独特性质。最后提供了Python实现代码,结合模拟数据和可视化验证理论结果。几何分布作为基础离散分布,在理论学习和工程实践中均有重要应用价值。原创 2026-03-13 15:24:03 · 652 阅读 · 0 评论 -
【概率分布】二项分布超详细解析
本文详细解析了概率论中的基础离散分布——二项分布。首先从定义出发,阐明二项分布描述的是n次独立伯努利试验中成功次数的概率分布,并介绍了其核心公式、期望值和方差。通过广告点击率和产品质量检测两个实际案例,结合Python代码实现,直观展示了二项分布的概率质量函数(PMF)和累积分布函数(CDF)特性。文章特别强调了二项分布在低成功概率场景下的应用,以及如何通过随机模拟验证理论分布。最后还提供了进阶分析方法,包括数据模拟和累积概率计算,为本科生理解和研究生应用提供了实用参考。原创 2026-03-13 15:07:42 · 816 阅读 · 0 评论 -
【概率分布】多项分布详解
本文详细介绍了概率论中的核心离散分布——多项分布。多项分布是二项分布在多结果情况下的推广,适用于描述固定次数独立试验中各结果出现频率的概率规律。文章从通俗理解入手,通过掷骰子和抽球实验等经典例子说明其应用场景,并总结出五项核心适用条件。详细讲解了多项分布的数学定义、概率质量函数及其计算示例,揭示其与二项分布的内在联系。最后提供Python实现代码,演示如何模拟和可视化多项分布数据。多项分布在机器学习、统计学和经济学等领域有广泛应用,掌握其原理和实现方法对数据分析和研究具有重要意义。原创 2026-03-13 15:03:43 · 646 阅读 · 0 评论 -
【概率分布】伯努利分布详解
伯努利分布是描述单次二分类试验的基础概率模型,适用于只有两种结果(如成功/失败)的场景。其核心特点是离散性、固定概率p和独立性。通过概率质量函数(PMF)可计算成功或失败的概率,期望和方差分别为p和p(1-p)。Python实战展示了不同p值下的分布可视化,以及逻辑回归在二分类任务中的应用,验证了伯努利分布作为二分类问题基础模型的实用性。本文结合数学原理与代码实现,帮助读者掌握这一重要概率分布及其机器学习应用。原创 2026-03-12 21:45:34 · 714 阅读 · 0 评论 -
【概率分布】t分布详解
t分布是小样本统计推断的基石直观层面:t分布是正态分布的“小样本版本”,尾部更厚,更能容忍小样本中的极端值;数学层面:通过t统计量标准化样本均值与总体均值的差异,利用自由度控制分布形态;实战层面:核心应用是t检验(对比两组均值)和置信区间估计(推测总体参数),是机器学习模型评估、科学实验分析的必备工具。理解“自由度”的物理意义(样本量-1),以及其对t分布形态的影响;掌握t统计量的计算逻辑,明确其“标准化差异”的核心作用;熟练运用t检验和置信区间估计,能解读p值和置信区间的实际意义;原创 2026-03-12 21:42:03 · 671 阅读 · 0 评论 -
【概率分布】Dirichlet分布详解
本文详细介绍了Dirichlet分布的概念、原理和应用。Dirichlet分布是多维连续概率分布,用于生成"和为1"的概率向量,是Beta分布的多维扩展。文章从生活案例出发,讲解其核心特征、概率密度函数、数字特征和生成机制,并展示Python实现方法。重点包括:1)通过参数α控制分布形状;2)与Gamma函数的关系;3)在LDA主题模型中的应用。文中提供了可视化代码和LDA实战示例,帮助读者理解这一重要概率分布在统计建模和自然语言处理中的实际价值。原创 2026-03-10 19:42:16 · 682 阅读 · 0 评论 -
【概率分布】Beta分布详解
摘要: 本文系统讲解Beta分布的核心概念、数学原理与应用。Beta分布用于描述区间[0,1]内概率的不确定性,通过参数α和β控制分布形状,反映对事件发生概率的信念。其核心特性包括共轭性,可简化贝叶斯推断中的信念更新过程。文章结合Python代码演示了Beta分布的可视化方法,并通过A/B测试案例展示实际应用,比较不同版本的转化率后验分布。Beta分布在统计建模、机器学习等领域具有重要价值,特别适用于概率估计和不确定性量化场景。原创 2026-03-10 19:27:24 · 736 阅读 · 0 评论 -
【集成学习】因果推断详解
本文系统介绍了因果推断的核心概念、数学原理和实际应用。首先区分了相关性与因果性,指出因果推断的核心目标是排除混淆因素干扰,量化干预对结果的真实影响。重点讲解了潜在结果框架、条件独立假设、倾向得分等理论基础,详细解析了IPW、回归调整和双重稳健三种常用估计方法。通过模拟数据实战演示了从数据生成到因果效应估计的全流程,包括倾向得分估计、ATE/CATE计算和假设验证。内容涵盖因果推断的完整知识体系,适合本科及以上学习者用于学术研究或实际业务决策分析,如医疗效果评估、广告归因等场景。原创 2026-03-09 18:13:27 · 581 阅读 · 0 评论 -
【集成算法】投票法详解
本文详细讲解了集成学习中的投票法(Voting),包括硬投票和软投票两种核心方法。硬投票采用少数服从多数原则,而软投票则基于概率加权求和。文章从数学原理出发,阐述了投票法的算法流程和理论依据,并通过鸢尾花分类任务展示了完整实战过程,包括数据预处理、模型构建、性能评估和可视化。投票法简单直观,能有效提升模型稳定性和预测精度,适用于多种机器学习场景。原创 2026-03-09 18:05:03 · 554 阅读 · 0 评论 -
【集成算法】GBDT详解(梯度提升决策树)
本文详细讲解了梯度提升决策树(GBDT)的核心概念、数学原理和实战应用。GBDT是一种通过逐步纠错的决策树团队实现高精度预测的集成算法,其核心思想是拟合伪残差(负梯度)来最小化损失函数。文章从通俗的生活场景类比入手,深入剖析了GBDT的数学原理和算法流程,包括加法模型、伪残差计算、迭代训练等关键步骤。最后以加州房价预测为例,提供了完整的Python实战代码,涵盖数据预处理、模型训练、参数调优和评估等全流程。GBDT具有精准纠错、适配复杂数据、自动特征选择等优势,适用于回归、分类等多种监督学习任务。原创 2026-03-07 22:01:36 · 798 阅读 · 0 评论 -
【集成算法】梯度提升详解
本文详细介绍了梯度提升算法的核心概念、数学原理及实战应用。梯度提升通过迭代纠错的方式,逐步构建强模型,其核心思想是加法模型与梯度下降优化。文章从通俗理解入手,阐述了梯度提升的工作逻辑和优势,并深入解析了其数学原理,包括目标函数、梯度下降优化和算法流程。针对回归和分类任务分别给出了具体实现方法。最后,以乳腺癌数据集分类为例,提供了完整的Python实战代码,涵盖数据加载、预处理、模型训练和评估全流程,适合本科及研究生学习参考,可直接用于课程设计和项目开发。原创 2026-03-07 21:59:05 · 527 阅读 · 0 评论 -
【集成算法】随机森林详解
本文系统介绍了随机森林算法的核心原理与实战应用。主要内容包括:1)通过通俗类比解释随机森林的集成思想和工作流程;2)从数学角度分析Bagging和随机特征选择如何降低模型方差;3)详细推导Gini不纯度、OOB误差等关键指标;4)提供乳腺癌分类任务的完整Python实现,涵盖数据预处理、模型训练与评估全流程。文章强调随机森林通过"样本随机+特征随机"的双重策略降低模型方差,在保持较低偏差的同时显著提升泛化性能,使其成为机器学习中高效易用的经典算法。原创 2026-03-06 19:36:29 · 688 阅读 · 0 评论
分享