机器学习
文章平均质量分 91
技术地板第一人
技术萌新
展开
-
降维PCA
本文从互联网搬运,只用于本人学习记录。降维PCA1. 最大可分性1.1. 方差1.2. 协方差1.3. 协方差矩阵1.4. 矩阵对角化1.5. 补充2. 求解步骤3. 性质4. 细节4.1. 零均值化4.2. 与SVD对比PCA(Principal Component Analysis) 是一种常见的数据分析方式,常用于高维数据的降维,可用于提取数据的主要特征分量。PCA 的数学推导可以从最大可分型和最近重构性两方面进行,前者的优化条件为划分后方差最大,后者的优化条件为点到划分平面距离最小,这里我将从原创 2021-09-06 14:36:11 · 247 阅读 · 0 评论 -
聚类算法KMeans
本文从互联网搬运,只用于本人学习记录。聚类算法KMeans1. 算法1.1. 算法步骤1.2. 复杂度2. 优缺点3. 算法调优 & 改进3.1. 数据预处理3.2. 合理选择 K 值3.3. 采用核函数3.4. K-Means++3.5. KMeans代码3.6. ISODATA4. 收敛证明K-means 是我们最常用的基于欧式距离的聚类算法,其认为两个目标的距离越近,相似度越大。1. 算法1.1. 算法步骤1.2. 复杂度2. 优缺点优点:容易理解,聚类效果不错,虽然是局原创 2021-09-05 20:32:59 · 818 阅读 · 0 评论 -
支持向量机SVM
支持向量机SVM1. 支持向量1.1. 线性可分1.2. 最大间隔超平面1.3. 支持向量1.4. SVM 最优化问题1. 支持向量1.1. 线性可分在二维空间上,两类点被一条直线完全分开叫做线性可分。1.2. 最大间隔超平面1.3. 支持向量样本中距离超平面最近的一些点,这些点叫做支持向量。1.4. SVM 最优化问题...原创 2021-09-04 14:44:13 · 164 阅读 · 0 评论 -
逻辑回归Logicstic
逻辑回归1. 模型介绍1.1. Logicstic分布1. 模型介绍Logistic Regression 虽然被称为回归,但其实际上是分类模型,并常用于二分类。Logistic Regression 因其简单、可并行化、可解释强深受工业界喜爱。Logistic 回归的本质是:假设数据服从这个分布,然后使用极大似然估计做参数的估计。1.1. Logicstic分布...原创 2021-09-02 17:31:09 · 712 阅读 · 0 评论 -
决策树之LightGBM
决策树之LightGBM1. 优化主要用于解决 GDBT 在海量数据中遇到的问题,相对 XGBoost 具有训练速度快、内存占用低的特点。1. 优化为了避免XGBoost的缺陷,并且能够在不损害准确率的条件下加快GBDT模型的训练速度,lightGBM在传统的GBDT算法上进行了如下优化:基于Histogram的决策树算法。单边梯度采样 Gradient-based One-Side Sampling(GOSS):使用GOSS可以减少大量只具有小梯度的数据实例,这样在计算信息增益的时候只利用剩下原创 2021-09-01 20:56:41 · 943 阅读 · 0 评论 -
决策树之XGBoost
决策树之XGBoost1. 数学原理1.1. 目标函数XGBoost使大规模并行boosting tree的工具。1. 数学原理1.1. 目标函数XGBoost使由kkk个基模型组成的一个加法运算式:yi^=∑t=1kft(xi)\hat{y_i} = \sum^k_{t = 1}f_t(x_i)yi^=t=1∑kft(xi)其中fkf_kfk为第kkk个基模型,yi^\hat{y_i}yi^为第iii个样本的预测值。损失函数由预测值yi^\hat{y_i}yi^与真实原创 2021-08-31 19:27:34 · 1294 阅读 · 0 评论 -
决策树之GBDT
决策树之GBDT1. 思想1.1. 回归树 Regression Decision Tree1.2. 梯度迭代 Gradient Boosting1.3 缩减 Shrinkage2. 优缺点3. 与Adaboost对比GBDT(Gradient Boosting Decision Tree)是一种迭代的决策树算法,该算法由多棵决策树组成,属于 Boosting 策略。GBDT 是被公认的泛化能力较强的算法。1. 思想GBDT 由三个概念组成:Regression Decision Tree(即 DT)原创 2021-08-28 15:57:38 · 486 阅读 · 0 评论 -
决策树之AdaBoost
决策树之AdaBoost1. 思想2. 细节2.1. 损失函数2.2. 正则化3. 优缺点AdaBoost(Adaptive Boosting,自适应增强),其自适应在于:前一个基本分类器分错的样本会得到加强,加权后的全体样本再次被用来训练下一个基本分类器。同时,在每一轮中加入一个新的弱分类器,直到达到某个预定的足够小的错误率或达到预先指定的最大迭代次数。1. 思想Adaboost 迭代算法有三步:初始化训练样本的权值分布,每个样本具有相同权重;训练弱分类器,如果样本分类正确,则在构造下一个训练原创 2021-08-28 15:55:34 · 873 阅读 · 0 评论 -
决策树之集成学习
决策树之集成学习BaggingBoostingStacking随机森林 Random Forest1. 思想2. 优缺点集成学习优于单个学习器:训练样本可能无法选择出最好的单个学习器,由于没法选择出最好的学习器,所以干脆结合起来一起用;假设能找到最好的学习器,但由于算法运算的限制无法找到最优解,只能找到次优解,采用集成学习可以弥补算法的不足;可能算法无法得到最优解,而集成学习能够得到近似解。比如说最优解是一条对角线,而单个决策树得到的结果只能是平行于坐标轴的,但是集成学习可以去拟合这条对角线。原创 2021-08-28 15:53:42 · 663 阅读 · 0 评论 -
决策树之基本决策树
基本决策树ID31. 思想2. 划分标准3. 缺点C4.51. 思想2. 划分标准3. 剪枝策略4. 缺点CART1. 思想2. 划分标准3. 缺失值处理4. 剪枝策略5. 类别不平衡6. 回归树决策树是一种基本的分类与回归方法,其模型就是用一棵树来表示我们的整个决策过程。比较:划分标准的差异:D3 使用信息增益偏向特征值多的特征,C4.5 使用信息增益率克服信息增益的缺点,偏向于特征值小的特征,CART 使用基尼指数克服 C4.5 需要求 log 的巨大计算量,偏向于特征值较多的特征。使用场景的原创 2021-08-28 15:50:16 · 115 阅读 · 0 评论