自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(132)
  • 收藏
  • 关注

原创 机器学习数据预处理:数据编码

数据编码是机器学习预处理的关键步骤,主要解决文字类别特征转换为数值的问题。文章介绍了4种常用编码方法:标签编码(适合有序类别)、独热编码(适合无序少类别)、目标编码(适合树模型多类别)和二进制编码(适合超多类别)。通过对比实验展示了不同编码方式对模型准确率的影响,并提供了完整的Python实现代码。文章还指出了常见编码误区,如无序特征误用标签编码会导致模型学习错误规律。最后总结出根据数据类型选择合适编码方法的口诀,帮助读者在实际应用中快速决策。

2026-04-25 15:36:25 660

原创 机器学习数据预处理:数据标准化(Z-Score)

摘要: 数据标准化(Z-Score)是机器学习预处理的核心技术,通过将特征转换为均值为0、标准差为1的分布,解决量纲不一致和数值差异大的问题。其核心公式为z=(x-μ)/σ,能消除特征间尺度差异,加速模型收敛并提升精度(如KNN、SVM等)。与归一化相比,标准化对异常值更鲁棒,适用于大多数模型(除树模型外)。文中通过数学推导、可视化对比和完整代码示例,阐明标准化的原理、实现及适用场景,强调其在距离/线性模型中的必要性,并提供了"异常数据用标准化,固定范围用归一化"的实践准则。

2026-04-25 15:34:06 697

原创 机器学习数据预处理:数据拆分

本文介绍了机器学习数据预处理中的关键步骤——数据拆分。文章首先解释了数据拆分的重要性,即通过将数据集划分为训练集、验证集和测试集来防止模型过拟合和作弊。接着详细讲解了三种核心拆分方法:随机拆分(最简单)、分层拆分(最常用)和K折交叉验证(最稳定),并比较了它们的优缺点和适用场景。文中还提供了乳腺癌数据集的完整Python代码示例,展示了随机拆分、分层拆分和K折交叉验证的具体实现。最后给出了工业界的实用建议:分类任务优先使用分层拆分,小样本用K折交叉验证,大数据采用6:2:2拆分比例,并强调测试集必须严格隔离

2026-04-23 16:08:53 672

原创 机器学习数据预处理:数据归一化(Min-Max)超通俗全解

数据归一化是机器学习中关键的数据预处理步骤,通过Min-Max方法将不同量级的特征统一缩放到[0,1]区间。文章详细解析了归一化的必要性、数学原理和实现方法,对比了归一化与标准化的区别,并提供了完整的Python可视化代码。主要内容包括:归一化公式推导、数据映射过程、4种可视化分析(折线图、柱状图、散点图和直方图),以及不同机器学习模型对归一化的需求程度。特别强调距离类算法(如KNN、SVM)必须进行归一化,而树模型则不需要。最后总结了归一化的核心要点和实际应用中的选择策略。

2026-04-23 16:07:43 923

原创 机器学习数据预处理:特征构造

摘要: 特征构造是机器学习中通过加工原始数据创造新特征的关键技术,能显著提升模型性能。核心方法包括特征组合、多项式变换、函数转换、时间特征提取、分箱离散化和统计聚合。流程涵盖数据理解、特征设计、实现与验证。实战案例展示了波士顿房价预测中特征构造的应用,通过多项式扩展和函数变换提升模型R²值。特征构造特别适合小样本、线性模型和需解释性场景,但需避免维度爆炸。与特征选择、数据转换协同使用,是数据建模的黄金法则——好特征往往比复杂模型更重要。

2026-04-22 07:58:09 656

原创 机器学习数据预处理:数据转换

把不规整、难处理的数据,变成规整、好计算、符合模型要求的数据。数值差距太大(收入 1000~1000 万)是文字而不是数字(男/女、好/中/差)分布歪歪扭扭(严重右偏)连续值不想用具体数字,只想分等级都要靠数据转换来解决。数据转换 = 把原始数据改成模型友好格式7 大核心方法:标准化、归一化、对数、Box-Cox、分箱、One-Hot、PCA距离/线性模型必做缩放,树模型可不做偏态数据用对数,分类数据用One-Hot,高维数据用PCA。

2026-04-22 07:54:28 692

原创 特征选择(超通俗完整版)

机器学习特征选择核心要点 特征选择是从原始特征中筛选关键子集,提升模型效率与性能。主要分为三类方法: Filter法(互信息/相关系数):基于统计指标快速初筛,适合高维数据 Wrapper法(如RFE):通过模型迭代评估特征组合,精度高但计算量大 Embedded法(Lasso/树模型):训练时自动选择特征,兼顾速度与效果 关键原则: 先划分数据集再做特征选择 线性模型必须配合特征缩放 树模型可跳过特征选择 典型应用场景: 高维数据预处理用Filter粗筛 小数据集追求精度用Wrapper 工业级项目首选E

2026-04-21 19:51:14 545

原创 特征缩放(标准化/归一化)超通俗讲解

特征缩放是数据预处理的核心步骤,用于解决特征量纲不一致的问题。主要包括标准化(Z-Score)和归一化(Min-Max)两种方法:标准化将数据转换为均值为0、标准差1的分布,适合正态分布数据;归一化将数据线性压缩到[0,1]区间,但对异常值敏感。标准化更适合神经网络、SVM等模型,而归一化适用于KNN等需要固定范围的场景。树模型(如随机森林)无需特征缩放。实际应用中,标准化通常是更安全的选择。文中提供了鸢尾花数据集的完整代码示例,展示了特征缩放对KNN模型效果的显著提升。

2026-04-21 19:49:39 588

原创 通俗易懂讲透 SARSA:强化学习 On-Policy 经典算法

SARSA是一种基于策略(On-Policy)的时序差分强化学习算法,其核心特点是边执行边学习,具有稳定性和安全性优势。算法名称来源于其更新过程涉及的状态(S)-动作(A)-奖励(R)-下一状态(S)-下一动作(A)五个要素。SARSA采用保守策略,使用实际执行的下一步动作来更新Q值,与Q-Learning追求最优路径不同,它更注重安全可靠的学习过程。算法通过ε-贪心策略平衡探索与利用,初期侧重探索(ε较大),后期偏向利用(ε减小)。文章提供了5×5网格世界的完整Python实现,包含环境设置、智能

2026-04-20 15:35:25 691

原创 通俗易懂讲透 Q-Learning:从零学会强化学习核心算法

本文通俗讲解Q-Learning强化学习算法。Q-Learning是一种无模型、基于价值迭代的方法,通过"行动账本"记录状态-动作价值(Q值),使智能体在探索中学习最优策略。核心概念包括Q值、贝尔曼方程和ε-贪心策略,关键公式为Q值更新方程。文章以迷宫寻宝为例,给出完整Python实现:定义迷宫环境(9x8矩阵),设置奖励规则(到达终点+10,撞墙-1),并演示Q-Learning训练过程。代码包含动态可视化,直观展示智能体路径优化过程。该方法适用于离散状态空间问题,是强化学习的基础算法

2026-04-20 15:33:43 908

原创 通俗易懂讲透 EM 算法(期望最大化)

EM算法是一种处理带隐藏变量概率模型的迭代优化方法,通过E步(计算后验概率)和M步(更新参数)交替进行,逐步提高模型准确性。相比K-Means等硬聚类方法,EM算法能实现软聚类,支持任意椭圆形状的簇,并输出概率归属。本文通过生活例子、数学推导和完整代码,深入浅出地讲解了EM算法的原理、实现及应用场景,同时分析了其优缺点及与其他聚类算法的对比,适合作为学习笔记和实验参考。

2026-04-18 16:37:17 649

原创 通俗易懂讲透谱聚类(Spectral Clustering)

谱聚类是一种强大的聚类算法,特别擅长处理复杂形状和非线性边界的数据。与K-Means不同,谱聚类通过分析数据点之间的连接关系而非直接距离,能够有效解决月牙形、环形等复杂分布数据的聚类问题。其核心流程包括构建相似度矩阵、度矩阵和拉普拉斯矩阵,进行特征分解后在新特征空间执行简单聚类。谱聚类在图像分割、社交网络分析等领域表现优异,但计算复杂度较高,适用于小规模高维数据。本文通过生活案例、数学推导和实战代码,深入浅出地讲解了谱聚类的原理和应用,是理解和掌握这一算法的实用指南。

2026-04-18 16:32:06 768

原创 通俗易懂讲透模糊C均值聚类(FCM)

模糊C均值聚类(FCM)是一种软聚类算法,允许样本以不同隶属度属于多个类别。与K-Means的硬划分不同,FCM通过隶属度矩阵反映数据边界的模糊性。核心思想是迭代更新簇中心(加权平均)和样本隶属度(基于距离),直到收敛。FCM适用于边界模糊的数据分析,如医学图像分割,但计算量大于K-Means且对初始值敏感。关键参数模糊系数m控制聚类软硬程度,常用值为2。FCM输出包含隶属度信息,适合需要概率解释的场景,但不适合大规模或噪声数据。

2026-04-17 08:22:48 1005

原创 通俗易懂讲透均值漂移(Mean Shift)聚类算法

摘要: Mean Shift是一种无需预设簇数的密度聚类算法,通过让数据点向高密度区域漂移实现自动分组。其核心思想是设置带宽参数(h),计算每个点邻域内的加权均值并迭代移动,直到收敛形成聚类。算法优点包括适应任意形状簇、抗噪声,但计算复杂度高且对带宽敏感。适用于图像分割、目标跟踪等场景,尤其适合不规则分布的小规模数据。文中通过糖果分组案例、公式推导和Python代码(含自动带宽估算与可视化)详细讲解,帮助读者快速掌握这一经典聚类方法。

2026-04-17 08:18:56 706

原创 通俗易懂讲透 Mini-Batch K-means

Mini-Batch K-means 是大数据场景下的 K-means 加速版,用小批量数据增量更新质心,在损失极少精度的前提下,实现速度与内存的巨大优化,是工业界最常用的聚类算法之一。

2026-04-15 08:28:47 715

原创 通俗易懂讲透层次聚类

层次聚类就是从每个点开始,按相似度一层层合并,画出一棵聚类树。它不用提前定簇数、结果直观,适合中小样本、有层级结构的数据,是无监督学习的入门必学算法。

2026-04-15 08:25:15 652

原创 超通俗讲透 K-Means 聚类算法

K-Means聚类算法是机器学习中最简单高效的无监督学习方法之一。本文用通俗易懂的方式全面讲解了K-Means的原理、公式、实现和应用。文章首先通过学生分组的例子形象说明算法过程,接着详细介绍了算法的四个步骤:初始化中心点、分配数据点、更新质心和迭代收敛。同时讲解了数学原理,包括目标函数和质心计算公式,并分析了算法的优缺点。实战部分提供了完整的Python代码示例,演示如何在鸢尾花数据集上应用K-Means,包括肘部法选择最佳K值、可视化聚类结果等。文章还总结了优化K-Means的方法和适用场景,指出它特别

2026-04-14 16:57:31 1081

原创 通俗易懂讲透 GMM 高斯混合聚类

本文通俗讲解高斯混合模型(GMM)聚类算法,通过饮料分类等生活案例帮助理解其核心思想。GMM用多个高斯分布拟合数据,采用EM算法迭代优化参数(权重、均值、协方差),实现基于概率的软聚类。相比K-Means,GMM能处理任意形状簇并输出概率,但计算较慢且对初始值敏感。文章包含公式解析、代码实现(图像分割案例)和优缺点对比,适合机器学习初学者快速掌握GMM原理及应用场景。

2026-04-14 16:53:56 1068

原创 一篇读懂Birch聚类算法:大数据量专用、速度快、省内存

摘要:Birch算法是一种专为大规模数据设计的高效聚类算法,通过簇特征(CF)三元组(N,LS,SS)压缩数据,构建CF树实现快速聚类。其核心优势包括极快速度、极小内存占用和支持流式数据处理。算法分为构建CF树和全局聚类两阶段,适合处理球形簇大数据场景,但需调整threshold和branching_factor参数。相比K-Means和DBSCAN,Birch在大数据场景表现突出,是工业界处理海量数据的首选聚类方案。

2026-04-13 15:41:29 890

原创 通俗易懂讲透 DBSCAN 聚类算法

本文通俗易懂地讲解了DBSCAN密度聚类算法,通过生活比喻、公式拆解和完整代码演示,帮助读者全面理解其原理和应用。DBSCAN是一种无需预设聚类数量的算法,能够自动识别任意形状的簇并剔除噪声点,与K-Means相比更适合处理不规则数据。文章详细介绍了核心参数eps和min_samples的含义,三种数据点(核心点、边界点、噪声点)的定义,以及算法流程。通过月牙形数据的完整代码示例,展示了参数选择、聚类实现和效果评估的全过程。最后总结了DBSCAN的优缺点、适用场景以及与K-Means的对比,指出其特别适合处

2026-04-13 15:37:50 771

原创 全网最通俗:网格搜索(Grid Search)到底是什么?怎么用?

本文通俗讲解了机器学习中的网格搜索(Grid Search)方法。网格搜索是一种通过穷举所有可能的超参数组合来寻找最优模型配置的调参技术。文章用配文具的简单例子类比说明其原理,指出其优点是简单稳定、结果可靠,缺点是计算成本高、不适用于高维参数。适用场景包括传统机器学习模型和小规模参数调优,而不适用于深度学习。文中提供了Python代码示例展示如何实现网格搜索调参,并总结了其核心特点:网格搜索是调参界的"暴力枚举"方法,虽然计算量大但结果准确可靠。

2026-04-12 07:55:51 573

原创 通俗易懂讲透梯度下降法(Gradient Descent)

本文通过通俗易懂的方式全面讲解了梯度下降法(Gradient Descent)的原理与应用。主要内容包括: 核心概念:用"黑夜下山"比喻形象说明梯度下降原理,将数学优化问题转化为直观的物理过程。 关键要素:详细解析梯度、学习率和收敛三个核心概念,并给出简洁的数学公式表达。 算法实现:提供完整的Python代码示例,展示梯度下降在线性回归中的应用,包含数据生成、标准化、训练过程和可视化分析。 优缺点分析:指出梯度下降的通用性强、原理简单等优势,同时也说明其速度慢、学习率难调等局限。 变体对

2026-04-12 07:53:30 1124

原创 通俗易懂讲透随机梯度下降法(SGD)

SGD = 每次只随机抽一个样本算梯度,然后更新参数的梯度下降。超级形象比喻:批量梯度下降(BGD):每走一步,把整座山地形看一遍 → 准,但超级慢随机梯度下降(SGD):每步只看脚下一小块 → 快,但会晃悠随机梯度下降(SGD)是大数据与深度学习的基石优化器,用“随机采样+快速更新”实现高效训练,虽然会震荡,但速度无人能敌。

2026-04-11 15:46:34 876

原创 通俗易懂讲透共轭梯度法(CG)

本文用通俗易懂的方式讲解了共轭梯度法(CG)的核心原理和应用。共轭梯度法通过选择互不干扰的共轭方向,有效解决了普通梯度下降在"扁长碗"函数中震荡收敛慢的问题。文章从形象比喻入手,解释了A-共轭的概念,详细拆解了CG算法的6步流程,并对比分析了CG相比最速下降法的优势:无折返、有限步收敛、内存占用低。同时提供了完整的Python实现代码,包含标准CG和预条件CG的收敛曲线对比。最后总结了CG的优缺点及适用场景,特别适合求解大规模稀疏对称正定线性系统,是科学计算和数值优化的重要工具。文章采用

2026-04-11 15:42:48 792

原创 通俗易懂讲透批量梯度下降法(BGD)

批量梯度下降 = 每一步都用「全部训练数据」算梯度,再统一更新一次参数。超级形象比喻:BGD:每走一步,都把整座山的地形看一遍,再决定往哪走、走多远优点:方向准、不跑偏缺点:走一步超级慢批量梯度下降(BGD)是最原始、最稳定、最准确的梯度下降版本,但因为每一步都要跑完所有数据,速度极慢,只适合小数据集与教学演示。

2026-04-10 08:28:44 774

原创 通俗易懂讲透牛顿法(牛顿-拉夫森方法)

本文用通俗易懂的方式讲解了牛顿法(牛顿-拉夫森方法)的原理和应用。牛顿法是一种利用切线逼近快速寻找函数零点的迭代方法,具有二次收敛特性,能在几步内达到极高精度。文章详细拆解了牛顿法的核心公式、实现步骤和收敛特性,并提供了完整的Python实现代码和可视化示例。同时指出了牛顿法的优缺点:收敛快、精度高,但对初始值敏感、需要计算导数。该方法适用于求方程根、优化问题、机器学习等领域,特别适合需要快速精确解的场景。最后强调牛顿法是数值优化中的"速度之王",但使用时需注意其局限性。

2026-04-10 08:27:15 839

原创 通俗易懂讲透动量法(Momentum)优化算法

本文通过形象比喻和公式拆解,深入浅出地讲解了动量法优化算法的原理与应用。文章指出普通梯度下降的两个缺陷(震荡和收敛慢),而动量法通过引入速度变量积累历史梯度惯性,实现更稳定快速的优化。核心内容包括:动量法的自行车下山比喻、核心公式拆解(速度更新和参数更新)、Nesterov动量法的改进原理、完整算法流程4步骤,以及可运行的Python代码实现(标准动量法与Nesterov对比)。文章还总结了动量法的5大优点和4个缺点,并提供了优化算法对比表和使用场景建议。动量法特别适用于损失函数呈狭长山谷形状、梯度震荡大的

2026-04-10 08:24:58 766

原创 通俗易懂讲透超参数优化

参数:模型自己能学会的权重、偏置(比如神经网络的 w、b)超参数:训练前必须人工设定、模型学不会的配置烤蛋糕 = 训练模型蛋糕配方 = 模型算法面粉、鸡蛋、牛奶 = 训练数据糖量、温度、时间 = 超参数烤出来好不好吃 = 模型效果超参数优化就是给模型“调最佳配置”,用最少实验找到最优超参数组合。在机器学习里,贝叶斯优化是训练慢、精度要求高场景的最强工具。

2026-04-09 15:00:10 620

原创 通俗易懂讲透贝叶斯优化

本文用通俗易懂的方式讲解了贝叶斯优化的核心原理和应用。贝叶斯优化通过代理模型(如高斯过程)和采集函数,以最少试验次数找到最优解,特别适用于机器学习超参数调优等计算昂贵的黑盒优化问题。文章从生活比喻入手,详细介绍了算法流程、核心三要素(黑盒函数、代理模型、采集函数)、常用公式,并提供了完整可运行的Python代码示例。同时对比了不同优化方法的优缺点,指出贝叶斯优化最适合中等维度、训练成本高的场景,但不适用于高维或需要并行的情况。最后强调贝叶斯优化是AutoML和超参数调优的首选方法。

2026-04-09 14:56:43 628

原创 通俗易懂讲透RMSProp优化算法

本文用通俗易懂的方式讲解了RMSProp优化算法,适合深度学习初学者和面试复习。RMSProp通过梯度平方的指数滑动平均实现自适应学习率,解决了AdaGrad学习率无限衰减的问题,使训练更稳定高效。文章包含形象比喻(如"下山找谷底")、公式拆解、可运行代码(优化Rosenbrock函数)及优化算法对比表。RMSProp特别适合RNN训练和不稳定梯度场景,但不适用于稀疏数据。最后指出,虽然RMSProp是经典优化器,但更强大的Adam算法已成为当前主流选择。全文以直观解释为主,兼顾技术深度

2026-04-09 14:53:08 1080

原创 通俗易懂讲透BFGS优化算法

本文深入浅出地讲解了BFGS优化算法,通过形象比喻和公式拆解帮助读者理解其原理。BFGS是一种拟牛顿法,通过迭代构造近似Hessian逆矩阵,在避免直接计算二阶导数的同时实现超线性收敛。文章详细介绍了BFGS的核心思想、公式推导、算法流程,并提供了可运行的Python代码实现,对比了BFGS与梯度下降在优化Rosenbrock函数上的性能差异。BFGS兼具牛顿法的快速收敛特性和梯度下降的计算效率,适用于高维优化问题,是机器学习中重要的优化工具。

2026-04-08 08:00:13 931

原创 通俗易懂讲透Adam优化器

文章摘要 Adam优化器是深度学习中最高效的自适应优化算法,结合了动量法和RMSProp的优点。本文用通俗比喻和公式拆解,形象解释了Adam的核心原理:通过一阶动量(惯性记忆)和二阶动量(梯度感知)实现智能参数更新,配合偏差校正确保训练稳定性。文章包含完整的PyTorch实现代码,展示Adam在神经网络回归任务中的应用,并对比分析了其优缺点及适用场景。Adam特别适合处理大规模数据、稀疏梯度(如NLP)和不稳定损失(如GAN)的任务,是深度学习实践中的首选优化器。

2026-04-08 07:56:50 2403

原创 通俗易懂讲透AdaGrad优化算法

AdaGrad 是自适应学习率的鼻祖,在稀疏数据与凸优化里很强,但因为学习率衰减太快,不适合深度学习。。

2026-04-08 07:53:32 590

原创 一口气读懂 PCA 主成分分析:从原理到代码,本科生/研究生都能彻底学会

本文全面介绍PCA主成分分析,从原理到代码实现。PCA是一种无监督降维方法,通过找到数据方差最大的正交方向(主成分),将高维数据压缩到少数关键维度。文章详细讲解PCA的核心思想、数学原理(包括标准化、协方差矩阵、特征值分解)和实现步骤,并给出鸢尾花数据集的Python代码示例。结果表明,PCA可将4维数据降至2维,保留95%以上的信息。文章还总结了PCA的优点(无监督、正交、可视化等)、缺点(线性限制、尺度敏感)及适用场景(高维数据、特征冗余等)。最后强调PCA的核心是保留最大方差信息,使复杂数据简化可视化

2026-04-07 20:35:15 750

原创 最通俗的 LDA 线性判别分析教程

本文通俗讲解LDA线性判别分析算法,对比其与PCA的区别,阐述LDA"同类越紧、异类越远"的核心思想。文章从数学原理、优化目标、求解步骤等方面解析LDA,总结其优缺点和适用场景,并提供Iris数据集的Python代码实现。LDA作为有监督降维算法,特别适合分类任务的特征提取和数据可视化,能有效增强类别分离性。通过特征值分解求解投影方向,LDA在保持类别可分性方面表现优异,是机器学习领域的重要工具。

2026-04-07 20:31:55 497

原创 机器学习降维与信号分离:独立成分分析 ICA

本文通俗讲解独立成分分析(ICA)的核心原理与应用。ICA是一种专门用于信号分离的降维算法,能够将混合信号拆解为统计独立的非高斯源信号。文章通过鸡尾酒会问题的经典案例,说明ICA在语音分离等场景的应用价值。详细对比了ICA与PCA的关键区别,强调ICA对信号独立性和非高斯分布的要求。提供可直接运行的Python代码演示信号混合与分离过程,并总结ICA的优缺点及适用场景。ICA适用于语音处理、脑电信号分析、金融时序等需要盲源分离的领域,但不适用于高斯分布数据或简单降维任务。

2026-04-07 20:23:29 617

原创 机器学习最强通用降维:UMAP 超通俗完整版

UMAP是一种强大的降维和可视化算法,完美结合了t-SNE的聚类效果和PCA的速度优势。文章用通俗语言和实例讲解UMAP的核心原理、参数调优和实战应用。UMAP通过拓扑学和流形假设,能快速将高维数据降维到2D/3D,同时保留局部聚类和全局结构。相比t-SNE,UMAP速度快5-20倍,支持大数据集和多种距离度量,既可用于可视化,也能直接作为模型输入特征。文章提供了MNIST手写数字降维的完整代码示例,并总结了UMAP的优缺点、适用场景和调参技巧,是机器学习领域最全能的降维工具之一。

2026-04-06 19:57:59 935

原创 机器学习最强可视化降维:t-SNE 超通俗完整版

本文全面介绍了t-SNE这一强大的可视化降维算法。t-SNE通过高斯分布计算高维相似度,用t分布优化低维布局,能生成同类相聚、异类分离的清晰聚类图。文章详细解析了t-SNE的核心思想、数学原理、参数调优(特别是困惑度perplexity),并提供了MNIST手写数字的可视化实战代码。同时对比了t-SNE与PCA、UMAP的优缺点,指出t-SNE最适合高维数据可视化,但不适合作为模型输入或处理大规模数据。最后总结了t-SNE的使用技巧:先PCA降维、标准化数据、设置合适困惑度等。t-SNE凭借其出色的局部聚类

2026-04-06 19:49:23 869

原创 机器学习降维:因子分析(Factor Analysis)通俗完整版

本文通俗易懂地介绍了因子分析(Factor Analysis)这一降维方法。主要内容包括: 核心概念:因子分析通过挖掘可观测指标背后的潜在因子(如学习能力、活跃程度)来降维,并区分公共因子和噪声。 关键流程:数据标准化→确定因子数→估计载荷→因子旋转→计算得分→解释命名。 实际应用:通过学生数据案例演示代码实现,展示如何从6个学科成绩中提取2个潜在因子。 对比分析:与PCA相比,因子分析具有更好的可解释性,适合问卷、社科等领域,但假设更严格。 适用场景:当需要解释数据背后的潜在原因时推荐使用,而单纯追求降维

2026-04-03 22:30:18 803

原创 机器学习降维核心:奇异值分解 SVD

SVD:机器学习的降维核心工具 奇异值分解(SVD)是线性降维的数学基础,广泛应用于PCA、数据压缩和推荐系统。它将任意矩阵分解为旋转、拉伸、再旋转三步($A=U\Sigma V^T$),通过保留前k个最大奇异值实现最优低秩近似。SVD优势包括通用性、数值稳定性和信息量化,但计算复杂度高且仅适用于线性数据。实战中可通过截断SVD和累计能量法(如保留90%信息)提升效率。相比PCA、NMF等方法,SVD在数学最优性上更突出,但需根据数据特性(如非线性或稀疏性)选择替代方案。代码示例展示了手写数字的降维与重构效

2026-04-03 22:23:44 904

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除