
机器学习 scikit-learn
文章平均质量分 96
本系列博客将系统介绍 scikit-learn 在机器学习中的应用,涵盖从基础算法到进阶模型的完整内容。我们将结合实际案例,深入解析算法原理、参数设置与优化方法,并通过代码示例展示模型的实现与可视化效果,帮助读者快速掌握并灵活运用机器学习工具。
MoRanzhi1203
振翅图南者,绝非华花郎
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
从协方差矩阵到降维可视化:PCA 的数学原理与应用
这篇文章系统介绍了主成分分析(PCA)的原理与实践。首先讲解了 PCA 的数学基础,包括数据中心化、协方差矩阵与特征值分解;然后展示了如何使用 scikit-learn 对鸢尾花数据集进行 PCA 降维、可视化协方差矩阵、特征值、二维投影及累计解释方差;最后总结了 PCA 在高维可视化、数据压缩、去噪和特征提取等场景的应用,为理解和实践线性降维提供了完整指导。原创 2025-09-30 00:37:58 · 1307 阅读 · 0 评论 -
随机梯度下降(SGD)算法及其在机器学习中的应用
随机梯度下降(SGD)是一种高效的优化方法,适用于大规模数据的回归和分类任务。本文介绍了 SGD 的算法原理、数学模型、实现流程及参数解析,并通过 Python `scikit-learn` 案例展示其在回归(加州房价预测)与分类(鸢尾花分类)中的应用与可视化效果。原创 2025-09-20 22:59:29 · 1743 阅读 · 1 评论 -
梯度提升算法及其在回归与分类中的应用实战
梯度提升(Gradient Boosting, GB)是一种集成学习算法,通过迭代优化残差逐步提升模型性能,适用于回归和分类任务。它强调精度,适合复杂非线性关系建模。关键参数包括学习率、迭代次数和树深度。与随机森林相比,GB 更注重预测精度,可结合 XGBoost、LightGBM、CatBoost 等高效实现应用于金融风险预测、医疗数据建模、销售预测及图像特征分析等场景。原创 2025-09-19 20:22:31 · 1385 阅读 · 0 评论 -
scikit-learn 分层聚类算法详解
本文介绍了 scikit-learn 的 AgglomerativeClustering 分层聚类算法。该方法通过逐步合并相似样本形成层次结构,参数如 n_clusters、linkage、metric 等影响聚类效果。文中对比了多种 linkage 方法并可视化结果,展示其差异与适用场景。结论指出:分层聚类直观可解释,但在大规模数据中计算开销较大。原创 2025-09-14 21:10:36 · 846 阅读 · 0 评论 -
亲和传播聚类算法应用(Affinity Propagation)
亲和传播(Affinity Propagation,简称 AP)是一种基于“消息传递”的聚类算法,与 K-Means 等传统聚类方法不同,它不需要用户预先指定簇的数量,而是通过在数据点之间传递相似度信息来自动确定簇数。其核心思想是每个数据点都会向其他数据点发送关于是否可以作为簇中心的“责任”信息,同时也会接收来自其他数据点的“可用性”信息,从而在算法迭代中自我调整,最终找到簇中心。原创 2025-02-02 21:09:59 · 910 阅读 · 0 评论 -
基于 sklearn 的均值偏移聚类算法的应用
均值偏移(Mean Shift)是一种基于密度峰值的无监督聚类算法,最早由 Fukunaga 和 Hostetler 于1975年提出。均值偏移聚类算法是通过计算数据点的局部均值来不断更新每个数据点的位置,直到所有的数据点都趋于聚集在密度较高的区域。其本质上是一种基于梯度上升的方式,通过对数据点的迭代移动找到最密集的区域,最后将数据点聚集成簇。与传统的基于距离的聚类方法(如K-means)不同,均值偏移聚类不需要预先指定簇的数量,它自动寻找数据分布的密度极值点进行聚类,能够处理非规则形状的数据分布。原创 2025-02-25 01:08:29 · 1295 阅读 · 0 评论 -
K-means 算法在无监督学习中的应用
K-means算法是无监督学习中常用的一种聚类分析算法。它旨在根据数据点的特征将数据集分成K个簇,使得同一簇内的数据点相似度高,而不同簇之间的数据点相似度低。该算法通过寻找数据中的潜在结构来自动划分数据,广泛应用于聚类分析、图像分割和异常检测等领域。本文详细介绍了K-means算法的原理、数学模型、实现步骤,并通过三个应用方向的案例说明了K-means在无监督学习中的应用。原创 2025-01-07 23:55:18 · 1341 阅读 · 0 评论 -
岭回归(Ridge Regression)在机器学习中的应用
本文系统介绍了岭回归在处理多重共线性和过拟合问题中的应用。通过引入 L2 正则化项,岭回归有效控制回归系数幅度,提高模型稳定性与泛化能力。文章结合糖尿病数据集,展示了数据预处理、相关性分析、VIF 检测、最佳 alpha 参数选择及预测效果可视化,全面说明了岭回归的建模流程与实际应用价值,为高维或特征相关性较强的数据分析提供了实用参考。原创 2025-09-18 23:42:09 · 1314 阅读 · 0 评论 -
多项式回归:线性回归的扩展
多项式回归是线性回归的扩展,它通过加入输入数据的高次项和交叉项,帮助我们更好地捕捉那些非线性关系。简单来说,它让我们用线性回归的方式去处理更复杂的数据模式。本文通过实例展示了多项式回归与线性回归的对比,讲解了如何选择合适的多项式阶数,以及这些选择如何影响模型的拟合效果。最后,还介绍了它的优缺点以及常见的应用场景,帮助大家在实际问题中做出更明智的选择。原创 2025-09-15 21:39:46 · 919 阅读 · 0 评论 -
使用 Scikit-learn 实现普通最小二乘法与非负最小二乘法
Scikit-learn 是一个功能强大的机器学习库,它提供了简单易用的接口来实现各种机器学习算法。本文将详细介绍如何使用 Scikit-learn 实现普通最小二乘法(Ordinary Least Squares, OLS)和非负最小二乘法(Non-Negative Least Squares, NNLS)。我们将对两种方法的公式、操作范围、优劣势以及结果进行对比分析。原创 2025-01-06 03:35:14 · 1305 阅读 · 0 评论