Day~w~m-CSDN博客

原创 GBDT算法原理

一、什么是GBDT到底什么是梯度提升树？所谓的GBDT实际上就是：GBDT = Gradient Descent + Boosting + Desicion Tree与Adaboost算法类似，GBDT也是使用了前向分布算法的加法模型。只不过弱学习器限定了只能使用CART回归树模型，同时迭代思路和Adaboost也有所不同。在Adaboost算法中，我们是利用前一轮迭代弱学习器的误差率来更新训练集的权重。而Gradient Boosting是通过算梯度（gradient）来定位模型的不足。首先举

2020-06-23 02:14:15 3072

原创 SVM推导详情

2020-05-03 21:04:39 247

原创主成分分析法

为什么要做主成分分析在很多场景中需要对多变量数据进行观测，在一定程度上增加了数据采集的工作量。更重要的是：多变量之间可能存在相关性，从而增加了问题分析的复杂性。如果对每个指标进行单独分析，其分析结果往往是孤立的，不能完全利用数据中的信息，因此盲目减少指标会损失很多有用的信息，从而产生错误的结论。因此需要找到一种合理的方法，在减少需要分析的指标同时，尽量减少原指标包含信息的损失，以达到对所收集...

2020-04-26 23:32:25 605

原创决策树

一、决策树原理决策树是通过一系列规则对数据进行分类的过程。它提供一种在什么条件下会得到什么值的类似规则的方法。决策树表示给定特征条件下，类的条件概率分布，决策树分为分类树和回归树两种，分类树对离散变量做决策树，回归树对连续变量做决策树。二、决策树构成决策树学习算法通常是一个递归地选择最优的特征，并根据该特征对训练数据进行分割，使得对各个数据集有一个最好的分类的过程。学习的过程一般为如下几个步...

2020-04-19 19:25:35 455

原创逻辑回归

一、逻辑回归假设逻辑回归三个基本假设：二、定义逻辑回归（Logistic Regression）与线性回归（Linear Regression）都是一种广义线性模型（generalized linear model）。逻辑回归假设因变量 y 服从伯努利分布，而线性回归假设因变量 y 服从高斯分布。因此与线性回归有很多相同之处，去除Sigmoid映射函数的话，逻辑回归算法就是一个线性回归。...

2020-04-12 23:07:21 1048

原创偏差与方差以及正则化

偏差偏差是衡量模型预测值与实际值的偏离程度，例如某模型的准确度为96%，则说明是低偏差；反之，如果准确度只有70%，则说明是高偏差方差方差描述的是训练数据在不同迭代阶段的训练模型中，预测值的变化波动情况（或称之为离散情况）。从数学角度看，可以理解为每个预测值与预测均值差的平方和的再求平均数。通常在模型训练中，初始阶段模型复杂度不高，为低方差；随着训练量加大，模型逐步拟合训练数据，复杂度开始...

2020-04-05 22:57:53 1463

原创梯度下降法原理

（该博文为一网友所写，非常详细易懂，故搬运过来以后方便回忆学习）一、为什么需要梯度下降法每个算法模型都有自己的损失函数，而损失函数包含了各个位置上的参数，我们的最终目标都是要找到使模型损失函数尽可能小的参数。在学习简单线性回归时，我们使用最小二乘法来求损失函数的最小值，但是这只是一个特例。在绝大多数的情况下，损失函数是很复杂的（比如逻辑回归），根本无法得到参数估计值的表达式。因此需要一种对大...

2020-03-29 23:31:28 1005 1

原创线性回归之最小二乘法、梯度下降法，以及经验风险、期望风险和结构风险

线性回归回归分析(regression analysis)用来建立方程模拟两个或者多个变量之间如何关联被预测的变量叫做：因变量(dependent variable), 输出(output)被用来进行预测的变量叫做：自变量(independent variable), 输入(input)一元线性回归包含一个自变量和一个因变量以上两个变量的关系用一条直线来模拟如果包含两个以上的自变量...

2020-03-22 23:34:18 1827

原创数据预处理和特征工程

1.数据归一化假设一个数据集有多个特征，如果数据不进行归一化，在量纲（尺度）不同的情况下，会导致不能正确衡量样本中维度的重要程度，比如有个两个特征，一个是用年作为计算单位，一个特征是用天作为计算单位，但实际上用天计算的那个特征数值会大得多，如果没有进行归一化，会导致该特征站主导作用，会与实际不符。归一化方法：一般来说，常用的数据归一化有两种：最值归一化(normalization)：把所...

2020-03-15 23:24:39 710

原创模型评估指标

1.混淆矩阵混淆矩阵也称误差矩阵，是表示精度评价的一种标准格式，用n行n列的矩阵形式来表示。具体评价指标有总体精度、制图精度、用户精度等，这些精度指标从不同的侧面反映了图像分类的精度。值为1为正类，0为负类TN （True Negative）：真负类真实值是0，预测值也是0，即我们预测是negative，预测正确了。FP （False Positive）：假正类真实值是0，预...

2020-03-08 22:19:33 578

原创 KNN算法总结

KNN算法也称为K近邻算法，是一个非常简单的分类算法。原理：为了判断未知样本所属的类别，以所有已知的类别的实例作为参照，计算未知样本与所有已知样本的距离，并从中选择未知样本与已知样本的距离最近的K个实例样本，根据少数服从多数的投票原则，让未知实例归类为K个最邻近样本中最多数的类别。（一般采用的是欧式距离计算方法）算法缺点：1.算法复杂度较高（需要比较所有已知实例与要分类的实例）2.当其样本...

2020-02-29 22:12:57 421

qq_43596996的博客