雪木木-CSDN博客

原创刷题：力扣热题100--滑动窗口（Day03）

本文解析了两道滑动窗口相关的字符串问题。第一题是求无重复字符的最长子串，通过哈希表记录字符位置，使用双指针动态维护合法窗口区间。第二题是寻找字符串中所有字母异位词，采用固定大小的滑动窗口和字符计数数组进行高效匹配。两题虽然形式不同，但都体现了滑动窗口的核心思想：将静态子串问题转化为动态维护过程，在窗口移动中逐步更新和筛选信息。文章强调解题时要重视边界条件处理，并培养对窗口信息维护、边界变化影响的敏感性，这种过程化思维是解决连续区间问题的关键。

2026-03-26 15:43:03 348

原创刷题：力扣热题100--双指针（Day02）

本文介绍了三个使用双指针解决的数组问题：移动零、盛最多水的容器和三数之和。对于移动零问题，采用快慢指针实现原地操作，将非零元素前移并补零；盛水容器问题通过首尾指针相向移动，计算最大面积；三数之和问题则先排序数组，固定一个数后使用双指针寻找补数，并处理重复情况。三种解法均体现了双指针在不同场景下的高效应用，时间复杂度均为O(n)或O(n²)，空间复杂度为O(1)。

2026-03-26 15:38:28 519

原创刷题:力扣热题100--哈希（Day01）

本文基于力扣热题100介绍了三个典型算法问题的哈希表解法。1.两数之和问题：通过哈希表存储补数实现O(n)时间复杂度查找；2.字母异位词分组：利用排序后的字符串作为哈希键实现快速分组；3.最长连续序列：使用哈希表去重并快速判断连续数字。文章总结了哈希表的核心价值在于O(1)时间复杂度的极速查询和特征映射能力，适用于存在性校验、分类聚合等场景。当遇到查找匹配项、统计频率或需要替换嵌套循环时，应考虑使用哈希表优化算法效率。

2026-03-20 19:29:06 554

原创 LIME算法

摘要：LIME（局部可解释模型无关解释）是一种解释复杂机器学习模型预测结果的方法。它通过在特定样本附近构建简单可解释的替代模型（如线性模型），分析特征对预测的影响。LIME具有四个核心特点：局部性（解释单个样本）、可解释性（使用直观表达）、模型无关性（适用于各类模型）和解释性（明确特征贡献）。文章以乳腺癌诊断为例，展示了LIME如何通过特征权重分析帮助医生理解模型决策依据。该方法为解决黑箱模型的可解释性问题提供了有效途径。

2025-11-12 10:34:24 1337

原创 SHAP方法

摘要：本文系统介绍了基于博弈论Shapley值的SHAP方法及其在机器学习模型解释中的应用。SHAP通过五大核心原则（对称性、零玩家、可加性、效率与一致性）公平分配特征贡献度，将模型预测视为"特征联盟"的收益。文章详细推导了Shapley值计算公式，并以乳腺癌数据集为例展示Python实现，通过XGBoost模型验证了SHAP在特征重要性评估中的有效性。实验结果显示mean concave points等形态特征贡献度最高，测试集准确率达95%以上。SHAP方法为黑箱模型提供了可解释的透

2025-11-04 20:09:49 1305

原创 Facets

Facets是Google开发的交互式数据可视化工具，包含FacetsOverview和FacetsDive两大功能模块。Overview提供数据集特征级统计概览，支持自动特征识别、多维度统计计算和多数据集对比分析，帮助发现数据分布异常。Dive则聚焦样本级交互探索，支持可视化展示、多数据集对比和聚类分析。两者结合形成宏观到微观的完整分析体系，为机器学习数据质量评估和特征工程提供有力支持。

2025-10-23 17:05:38 981

原创集成学习---Bagging

本文介绍了集成学习中的Bagging方法及其应用。主要内容包括：集成学习的基本原理，通过模型互补性提升性能；简单模型融合方法如硬投票和软投票；Bagging的核心思想，通过自助采样生成多个数据子集并行训练模型，再聚合结果。实验对比了决策树和随机森林在乳腺癌数据集上的表现，结果显示随机森林在准确率和稳定性上更优，体现了集成学习的优势。Bagging通过降低模型方差，有效提高了算法的泛化能力和鲁棒性。

2025-10-15 18:38:37 1012

原创支持向量机（SVM）（二）---优化算法

本文介绍了求解支持向量机(SVM)对偶问题的序列最小最优化(SMO)算法。该算法通过每次只优化两个拉格朗日乘子，将大规模二次规划问题转化为一系列可解析求解的二维子问题。主要内容包括：1)两个变量二次规划的求解方法，通过几何约束和求导得出最优解；2)变量的启发式选择策略，外层循环选择违反KKT条件最严重的变量，内层循环选择能使目标函数变化最大的变量；3)阈值和预测误差的更新方法；4)给出了SMO算法的完整伪代码。SMO算法通过分解问题实现了SVM在大样本条件下的高效训练，具有计算速度快、收敛性好的特点。

2025-10-14 20:31:40 1401

原创支持向量机（SVM）（一）---基本原理

支持向量机（SVM）是一种基于最大间隔原则的分类算法，通过寻找最优分隔超平面提升模型泛化能力。其核心思想是最大化支持向量到决策边界的几何间隔，确保分类稳健性。SVM具有泛化错误率低、计算效率高等优点，但对参数和核函数选择敏感。本文以鸢尾花数据集为例，展示了SVM的Python实现过程，包括数据标准化、模型训练（使用RBF核）和性能评估。实验结果表明SVM在多分类任务中表现优异，验证了其作为优秀现成分类器的特性。

2025-10-13 23:12:14 1064

原创朴素贝叶斯

对于分类而言，使用概率有时要比使用硬规则更为有效。贝叶斯概率及贝叶斯准则提供了一种利用已知值来估计未知概率的有效方法。可以通过特征之间的条件独立性假设，降低对数据量的需求。独立性假设是指一个词的出现概率并不依赖于文档中的其他词。当然我们也知道这个假设过于简单。这就是之所以称为朴素贝叶斯的原因。尽管条件独立性假设并不正确，但是朴素贝叶斯仍然是一种有效的分类器。

2025-10-12 09:39:49 942

原创决策树模型

在众多机器学习模型中，虽然许多方法都能够构建有效的决策边界，但它们往往难以揭示背后的推理逻辑，被视为“黑箱”。相比之下，决策树模型的优势不仅在于准确性，更在于其高度可解释性。它通过逐步选择最优的特征进行划分，将复杂的判断过程转化为清晰的树状决策结构，每一步决策都具有明确的含义和依据。此外，决策树在达到足够确定性时还能提前停止分裂，从而实现自然、直观且高效的推理过程。

2025-10-11 18:46:33 1471

原创 Logistic回归

本文系统介绍了Logistic回归模型。首先阐述了其基本原理：通过线性模型结合概率映射函数（二分类使用Sigmoid函数，多分类使用Softmax函数）实现概率预测，并采用交叉熵损失函数和梯度下降等优化算法求解最优参数。然后通过鸢尾花数据集验证了模型的有效性，实验结果显示该模型在多分类任务中表现优异。文章指出Logistic回归具有计算效率高、易于实现等优点，适合作为分类问题的基线模型，但也存在欠拟合风险。最后建议结合特征工程等方法进一步提升模型性能。

2025-10-09 23:09:02 1095

原创 K-近邻算法

K-近邻算法是一种基于实例的监督学习分类方法，通过计算待分类样本与训练集样本的距离确定类别。文章详细介绍了欧几里得、曼哈顿等9种距离度量方法及其适用场景，并以鸢尾花数据集为例展示了KNN的实际应用。该算法具有直观易懂、无需训练的优点，但计算复杂度高且可解释性有限，适合小规模数据集分类任务。

2025-10-08 18:32:18 995

原创结构方程模型（SEM）概述

SEM建模过程中的关键步骤时确立要估计的模型，确定模型的方法有很多，其中最简单、最直接的方法时Wright（1934）提出的路径图法。路径图可以直接清晰的表达研究人员对特征变量关系的想法，并便于通过SEM进行处理。

2025-09-29 20:07:30 2066

原创深度学习模型---TabNet

TabNet是一种专门针对表格数据设计的深度学习模型，通过多步决策网和可解释的特征掩码实现特征选择与高阶表示学习。在自监督预训练阶段，模型通过遮蔽部分特征并进行重建，学习特征间的依赖关系，从而增强对缺失或噪声数据的鲁棒性；在监督微调阶段，经过编码器输出进一步经过决策步骤生成最终预测结果。相比传统的树模型（如XGBoost或LightGBM），TabNet不依赖手工特征工程，能够端到端捕捉复杂的非线性交互，同时有一定可解释性。

2025-09-26 13:07:11 2066

原创特征工程---特征交叉

在机器学习中单个变量往往无法刻画复杂关系，因此需要对单个变量进行交叉，从而发掘其中隐藏的信息。具体来说，特征交叉是指，在原始特征的基础上，将两个或多个特征组合在一起形成新的特征，以显式捕捉特征之间的交互关系，从而增强模型表达能力。如今，特征交叉已经成为特征工程中十分重要的一个环节，经过特征交叉，不少模型的性能都得到了很大的提升。在线性模型（如LR、广义线性模型等）中，模型本身只会学习单特征权重，交互项需要人为加进去。在推荐/广告等场景中交叉更有助于发现更细粒度的模式。

2025-09-23 10:57:20 1349

不断学习，不断进步