机器学习
文章平均质量分 88
bulingg
打怪升级的散养研究生一枚
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
L1与L2正则化的差异
摘要: L1和L2正则化的核心区别在于惩罚项的数学形式和作用机制。L1通过绝对值惩罚($ \lambda \sum |w_i| $)产生稀疏解,其菱形约束区域和高概率的坐标轴切点促使特征权重归零,实现特征选择;而L2通过平方惩罚($ \lambda \sum w_i^2 $)使权重平滑衰减,圆形约束边界导致非零解。从梯度更新看,L1的恒定梯度推动小权重归零,L2的梯度随权重减小而衰减。L1的稀疏性源于拉普拉斯先验和几何特性,L2的高斯先验则更适合防止过拟合。原创 2026-03-28 22:41:55 · 377 阅读 · 0 评论 -
LR逻辑回归详解
逻辑回归是一种基于Sigmoid函数的二分类模型,通过线性组合和概率映射实现预测。其核心是交叉熵损失函数和梯度下降优化,适用于线性可分数据和大规模稀疏特征场景。优点包括计算高效、可解释性强,但存在对非线性数据拟合不足、易受多重共线性影响的缺点。相比树模型,逻辑回归是参数化线性方法,而树模型能自动处理特征交互和非线性关系。针对多重共线性问题,可采用特征筛选、正则化或PCA等方法解决。逻辑回归特别适合高维稀疏数据,因其计算效率和凸优化特性能保证稳定收敛。原创 2026-03-13 08:44:02 · 451 阅读 · 0 评论 -
集成模型:gbdt,xgboost,lightgbm,catboost
GBDT和XGBoost是两种基于决策树的集成学习算法。GBDT通过梯度下降逐步添加决策树来拟合负梯度(残差),最小化损失函数。其核心是每轮训练新树拟合当前模型的负梯度,并通过泰勒展开优化损失函数。XGBoost在GBDT基础上引入正则化项和二阶导数信息,使用更精确的二阶泰勒展开近似损失函数,并加入叶子节点权重和数量的正则化控制模型复杂度。XGBoost采用近似算法加速树分裂过程,通过分裂增益公式选择最优分割点。两种算法都使用CART树作为基学习器,但XGBoost在效率和精度上有所提升,具有更强的泛化能力原创 2025-12-19 23:36:24 · 1210 阅读 · 0 评论 -
聚类方法(kmeans,DBSCAN,层次聚类,GMM,EM算法)
本文概述了常见的聚类算法及其核心思想。K-Means通过最小化簇内平方误差划分数据,但对初始中心敏感;K-means++优化初始中心选择;Bisecting K-means采用二分策略降低依赖性。DBSCAN基于密度发现任意形状簇,OPTICS通过可达距离改进多密度聚类。层次聚类通过树状结构合并或分裂簇,提供多种距离度量方式。这些算法各有优缺点,适用于不同数据场景。原创 2025-12-07 21:52:31 · 824 阅读 · 0 评论 -
最大似然估计(MLE)和MAP(最大后验概率)
伯努利分布(Bernoulli Distribution)是概率论中一种离散概率分布,描述只有两种可能结果的单次随机试验。MLE的核心思想是找到使观测数据出现概率最大的参数值。的先验分布是均匀分布时,即先验分布为常数时,最大后验估计与最大似然估计重合,因为此时。优化时需同时考虑似然和先验的权重(如L2正则对应高斯先验)。通过优化算法(如梯度下降)求解使对数似然最大的参数。MAP在MLE的基础上引入参数的先验分布。是第i个样本的标签(0或1),是待求参数(包含偏置项)。即:(当存在多个参数时,原创 2025-12-07 19:14:01 · 910 阅读 · 0 评论 -
常见的特征工程:数值型、类别型特征处理;特征构造、选择、文本特征处理、缺失值处理
为什么要做特征构造?原始特征无法直接表达业务规律,构造特征可以显式化非线性、交互、时间周期等信息,显著提升模型的与特征构造的常用坑有哪些?模型效果不提示,怎么办?特征工程是机器学习中数据预处理的核心环节,直接影响模型效果。原创 2025-11-30 22:32:27 · 1094 阅读 · 0 评论 -
深度学习——过拟合和欠拟合处理
深度学习中过拟合和欠拟合的处理方式原创 2023-05-07 17:04:00 · 293 阅读 · 0 评论 -
时间序列模型:AR、MA、ARMA、ARIMA、ARCH、GARCH总结
本文介绍了时间序列分析中的主要模型。首先阐述了平稳序列、白噪声、滞后项和误差项等基本概念。重点讲解了AR模型(利用历史值预测当前值)、MA模型(考虑历史误差影响)及其组合ARMA模型。对于非平稳序列,介绍了通过差分处理的ARIMA模型。在波动性建模方面,详细说明了ARCH模型(基于历史残差平方)和GARCH模型(同时考虑历史残差和条件方差),并比较了两者的特点:GARCH通过引入条件方差的自回归部分,能够以更少参数捕捉长期波动特征。最后指出GARCH模型实质是对条件方差建立ARMA过程,与均值建模的ARMA原创 2025-11-30 22:06:43 · 1118 阅读 · 0 评论 -
机器学习中的线性模型和非线性模型
线性模型通常易于解释,计算效率较高,而非线性模型则可以模拟更加复杂的数据结构,但可能需要更多的数据和计算资源,并且模型的可解释性可能较差。在实际应用中,选择哪种模型通常取决于数据的特性和所要解决的问题。线性模型是基于线性假设的模型,即输出是输入特征的线性组合。非线性模型可以捕捉数据中的非线性关系。原创 2024-04-28 19:36:50 · 1892 阅读 · 0 评论 -
SVM中常用的核函数及适用场景
核函数(Kernel functions)在机器学习中尤其是在支持向量机(SVM)中扮演着重要的角色,它们能够将数据映射到高维空间,从而解决非线性问题。在实际应用中,选择核函数通常取决于问题的具体需求和数据集的特性。通常需要通过交叉验证等方法来调整核函数的参数,以达到最佳的模型性能。原创 2024-04-28 19:35:51 · 4197 阅读 · 0 评论 -
集成学习——随机森林
随机森林是一种集成学习方法,它通过构建多个决策树并将它们的预测结果进行汇总来做出最终的决策。每棵树都是在数据集的一个随机子样本上训练得到的,并且在分裂节点时只考虑特征的一个随机子集。这种随机性有助于提高模型的泛化能力,减少过拟合。最终的预测结果是通过对所有树的预测进行投票(分类问题)或平均(回归问题)得到的。原创 2024-04-19 18:34:28 · 1157 阅读 · 0 评论 -
机器学习——逻辑回归
总结来说,交叉熵损失函数在逻辑回归中被广泛采用,是因为它与逻辑回归模型的概率输出相匹配,可以提供良好的梯度信息,保证了损失函数的凸性。原创 2024-04-19 18:18:30 · 664 阅读 · 0 评论 -
二分类模型来解决多分类问题
One-vs-Rest,也称为 One-vs-All,是将多分类问题分解为多个二分类问题的一种方法。对于有 ( N ) 个类别的多分类问题,OvR策略会创建 ( N ) 个二分类模型,每个模型负责将一个类别与其它所有类别区分开来。Error-Correcting Output Codes是一种更复杂的策略,它通过创建多个二分类器,并将多类标签编码为二进制串来工作。One-vs-One策略是另一种解决多分类问题的方法,它通过在每对类别间训练一个二分类模型来工作。个类别的问题,会训练。原创 2024-04-10 15:22:03 · 1163 阅读 · 0 评论 -
常用的回归损失函数
对于选择损失函数,需要考虑模型的具体需求和数据的特点。例如,如果数据包含许多异常值,可能会选择Huber损失或MAE来减少异常值的影响。如果模型需要惩罚大的误差,MSE或RMSE可能是更好的选择。原创 2024-04-10 15:18:47 · 1564 阅读 · 0 评论 -
统计学中不同相关系数的比较
Pearson是对线性关系的度量,对于非线性关系和非正态分布的数据可能不是很敏感。Kendall和Spearman是非参数方法,它们对于非正态分布的数据和非线性关系更为稳健,但通常具有较低的统计效能。Spearman通常对异常值更为敏感,而Kendall在处理小样本数据或有许多重复值的数据时更为可靠。原创 2024-03-15 14:31:29 · 1707 阅读 · 0 评论 -
机器学习各类算法的优缺点
介绍常见机器学习模型的优缺点,比如逻辑回归,k近邻,朴素贝叶斯,支持向量机原创 2024-02-29 16:01:09 · 1495 阅读 · 0 评论 -
机器学习中类别不平衡问题的解决方案
类别不平衡(class-imbalance)就是指分类任务中不同类别的训练样例数目差别很大的情况。原创 2024-02-28 21:53:57 · 3390 阅读 · 0 评论 -
机器学习-模型评估与选择
为了判断模型的优劣以及是否过拟合,观察模型在测试集上的误差(泛化误差),需要尽可能使训练集和测试集中的额样本互斥,可以采用以下方法从数据集D中产生训练集S和测试集T。原创 2023-04-18 11:29:22 · 307 阅读 · 1 评论 -
预测方法与实践(一)
描述了预测常见的几种方法,以及相关基础知识原创 2023-12-15 15:59:17 · 356 阅读 · 0 评论 -
数据标准化方法及应用场景
介绍了6种数据标准化方法,及标准化的目的原创 2023-12-15 14:36:54 · 1263 阅读 · 0 评论 -
数据分布类型及处理方式
讲述了常见的6种数据分布形势,以及对应的概率函数,期望和方差原创 2023-11-03 12:51:35 · 1222 阅读 · 0 评论 -
GBDT和XGBoost的原理
集成学习通过构建多个学习器来完成学习任务,主要分为以下两大类:本节主要讲述Boosting:step1,从初始训练集训练出一个基学习器step2,根据基学习器的表现对训练样本分布进行调整,使得先前基学习器做错的训练样本在后续受到更多关注step3,基于调整后的样本分布来训练下一个基分类器step4,重复进行上述操作,直到基学习器数目达到事先指定的值Tstep5,将T个基学习器进行加权结合以决策树(分类树或者回归树)为基函数的提升树的提升方法称为提升决策树,简称提升树。提升树是加法模型和前向分布算法原创 2023-10-31 16:52:17 · 221 阅读 · 0 评论 -
KNN算法
介绍了k近邻算法的基本思想,以及在大数据量前提下,构造kd树的思想原创 2023-08-15 12:02:46 · 116 阅读 · 0 评论 -
机器学习——决策树
介绍了决策树中的常见算法,如ID3,C4.5,CART,以及处理属性缺失和属性连续取值的方法原创 2023-08-07 13:41:40 · 191 阅读 · 1 评论 -
潜在语义分析和概率潜在语义分析
描述了潜在语义分析中的单词向量模型和话题向量模型,以及两者之间的映射和推到;然后介绍了概率潜在语义分析的基本概念,生成模型和共现模型原创 2023-08-06 09:46:00 · 513 阅读 · 0 评论 -
集成学习——Boosting的基础概念
介绍了在分类问题中国Boosting算法的基本概念,以及代表算法AdaBoost的流程,同时还介绍了前向分布算法和提升树原创 2023-08-05 10:18:25 · 258 阅读 · 1 评论 -
机器学习——聚类算法
介绍了聚类算法中常用知识点,包括距离或相似度,类间距离的定义,以及层次聚类和Kmeans聚类算法原创 2023-07-31 12:40:11 · 669 阅读 · 1 评论 -
机器学习及监督学习概论
参数模型,非参数模型,生成式模型,判别式模型,模型选择和评估原创 2023-07-13 16:38:12 · 467 阅读 · 1 评论 -
感知机算法
感知机算法的原始形式及对偶形式,以及感知机模型和损失函数原创 2023-07-13 18:18:02 · 211 阅读 · 1 评论 -
生成式模型和判别式模型
生成式模型和判别式模型原创 2023-07-06 20:11:31 · 231 阅读 · 1 评论
分享