机器学习
文章平均质量分 90
Das1
欢迎光临我的个人博客:https://das1zhang.github.io/
WHU传奇耐烫王,苦逼大二程序员一枚,只要能到达那个地方(大厂实习)。。。。。。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【机器学习】支持向量机
支持向量机(SVM)是一种线性分类器,其核心是寻找最优超平面以最大化分类间隔。SVM通过拉格朗日乘子法将原始优化问题转化为对偶问题,并利用支持向量确定分类边界。SMO算法通过每次优化两个拉格朗日乘子来高效求解对偶问题。SVM的优势在于能够处理非线性分类问题(通过核技巧)且具有较好的泛化能力。原创 2026-02-12 22:14:05 · 811 阅读 · 0 评论 -
【机器学习】决策树
决策树是一种基于"分而治之"策略的分类方法,通过递归划分属性构建树结构,包含三种停止条件。常用的划分标准包括信息增益(选择增益最大的属性)、增益率(先筛选高于平均增益再选最高增益率)和基尼指数(反映数据纯度)。为防过拟合,采用预剪枝或后剪枝策略。处理缺失值时,采用样本赋权方法,先计算有值数据的信息增益,再按权重划分缺失样本。这些方法使决策树能有效处理不完整数据并提高泛化能力。原创 2026-02-10 09:43:08 · 513 阅读 · 0 评论 -
【机器学习】10_特征选择与稀疏学习
本文介绍了特征选择的基础概念和主流方法。特征选择旨在从特征集合中筛选出与任务相关的子集,分为过滤式、包裹式和嵌入式三类。过滤式方法如Relief通过统计量评估特征重要性;包裹式方法如LVW直接以学习器性能为准则,但计算成本高;嵌入式方法如L1正则化将特征选择融入训练过程。文章还分析了稀疏学习、字典学习、压缩感知和矩阵补全等技术,其中L1正则化通过几何特性和软阈值算子实现稀疏解,字典学习通过KSVD算法优化,压缩感知利用信号稀疏性进行高效采样,矩阵补全则通过核范数近似求解缺失值。原创 2026-01-24 01:16:58 · 389 阅读 · 0 评论 -
【机器学习】09_强化学习
强化学习(Reinforcement Learning, RL)研究智能体(Agent)如何在复杂环境中通过。:当前状态的价值 = (当前动作的即时奖赏) + (折扣后的未来状态价值)。它揭示了值函数在时间上的相关性。TD 学习克服了蒙特卡罗法必须等整个轨迹结束才能更新的缺点,实现增量式更新。这是大语言模型(如 ChatGPT)对齐的关键。值函数用于评估一个状态或动作的“好坏”。针对搜索空间巨大、奖赏函数难设计的问题。强化学习常用 MDP 四元组。原创 2026-01-23 02:38:31 · 403 阅读 · 0 评论 -
【机器学习】08_聚类
摘要:本文系统介绍了聚类分析的关键技术,包括性能度量、距离计算和经典算法。性能度量分为外部指标(如JC、FMI)和内部指标(如DBI、DI)。距离计算涵盖闵可夫斯基距离(含曼哈顿和欧氏距离)及马氏距离。四大经典算法包括:k-means(原型聚类)、LVQ(监督聚类)、GMM(概率模型)和DBSCAN(密度聚类)。层次聚类通过合并/拆分构建树状结构,采用单/全/均链接计算类间距离。各方法在适用场景、计算复杂度和结果解释性上各具特点。原创 2026-01-22 01:17:01 · 419 阅读 · 0 评论 -
【机器学习】07_降维与度量学习
贝叶斯最优分类器是理论上的性能上限,这个结论从数学上证明了即便只看一个邻居,kNN 的效果也是有底线保证的。流形在局部具有欧氏空间的性质(可计算距离)当数据在原始空间中不是线性可分或映射关系非线性时,PCA 效果较差 21。方法,其工作机制非常直观:对于给定的测试样本,在训练集中找到距离最近的。PCA 是最常用的线性降维方法。,通过非线性映射将数据映射到高维特征空间,再在该空间执行 PCA。度量学习的本质是:与其通过降维寻找合适空间,不如直接。在高维空间下,数据样本会变得极其稀疏 8。原创 2026-01-21 20:28:09 · 599 阅读 · 0 评论 -
【机器学习】06_集成学习
集成学习通过组合多个学习器提升性能,主要分为同质(基学习器)和异质(组件学习器)集成。Boosting类方法(如AdaBoost、GBDT)通过串行优化降低偏差,调整样本权重或拟合梯度;Bagging和随机森林则通过并行采样降低方差,引入双重随机性增强多样性。Stacking采用元学习器自动组合初级学习器结果。集成效果依赖于个体学习器的准确性和多样性,可通过数据、属性、输出或参数扰动增强多样性。不同方法适用于不同场景:Boosting适合欠拟合,Bagging/RF适合过拟合,Stacking适合复杂任务。原创 2026-01-20 00:41:22 · 672 阅读 · 0 评论 -
【机器学习】05_决策树
本文介绍了决策树的基本概念、核心算法及其应用。决策树是一种监督学习方法,通过递归划分数据集构建树形结构,包含根节点、内部节点和叶节点。重点解析了三种经典算法:ID3基于信息增益,C4.5引入增益率解决偏好问题,CART使用基尼指数并支持回归任务。为防止过拟合,讨论了前剪枝和后剪枝策略,以及连续属性和缺失值的处理方法。最后对比了三种算法的特性差异,包括度量指标、树结构和适用任务类型。决策树因其直观性和广泛适用性,成为机器学习中的重要方法。原创 2026-01-18 22:37:15 · 612 阅读 · 0 评论 -
【机器学习】04_支持向量机_拉格朗日对偶法
分离超平面0.5x10.5x2−200.5x10.5x2−2016决策函数fxsign0.5x10.5x2−2fxsign0.5x10.5x2−217物理意义:这两个点都是支持向量(因为α∗0α∗0)18181818。超平面正好位于33(3,3)33和11(1,1)11连线的中垂线上。我们根本没有直接去解复杂的www方程组,而是通过解简单的α\alphaα。原创 2026-01-17 16:52:21 · 609 阅读 · 0 评论 -
【机器学习】03_贝叶斯决策
本文系统梳理了贝叶斯分类器的核心理论与算法。首先介绍了贝叶斯决策论的基本公式和两种决策准则(最小错误率与最小风险)。重点讲解了朴素贝叶斯分类器的原理、计算步骤(包括先验概率和条件概率的估计)以及拉普拉斯修正方法。对比了极大似然估计和贝叶斯估计的区别,并简要说明了EM算法处理隐变量的思路。最后列举了半朴素贝叶斯和贝叶斯网等拓展概念。文章提供了完整的贝叶斯分类知识框架,特别强调了考试中可能出现的计算题和概念辨析题。原创 2026-01-08 11:47:56 · 618 阅读 · 0 评论 -
【机器学习】02_线性模型
本文系统介绍了机器学习中的线性模型,包括线性回归、对数几率回归和线性判别分析三大核心算法。重点讲解了线性回归的最小二乘法求解和L1/L2正则化特性,对比了岭回归与Lasso回归的几何意义和应用场景。详细推导了对数几率回归的sigmoid函数和交叉熵损失函数,并解释其优于均方误差的原因。此外,阐述了LDA算法的类内散度和类间散度矩阵,以及多分类策略和类别不平衡处理方法。全文通过数学公式推导、几何直观解释和对比表格,为理解线性模型提供了全面的理论基础。原创 2025-12-31 18:04:02 · 968 阅读 · 0 评论 -
【机器学习】01_模型选择与评估
摘要 本文系统梳理了机器学习模型选择与评估的核心理论和方法。主要内容包括:(1) VC维理论,阐释模型复杂度与样本量的关系,指出VC维反映模型学习能力,泛化误差受其约束;(2) 偏差-方差分解,将误差分解为偏差(拟合能力)、方差(稳定性)和噪声(不可约减误差),分析欠拟合与过拟合的权衡;(3) 模型评估方法,比较留出法、k折交叉验证和自助法的优缺点;(4) 性能度量指标,详细说明查准率、查全率、F1值、ROC曲线和AUC的计算方法及其意义。这些内容是机器学习考试和实际应用中的重点,需要掌握相关公式和计算技巧原创 2025-12-28 17:27:14 · 817 阅读 · 0 评论
分享