分类
lukeyyanghang
这个作者很懒,什么都没留下…
展开
-
boosting与bagging
什么是Bagging?1.基本思想:自助采样法,给定包含m个样本的数据集,随即取出一个样本放入采样集,再把该样本放回初始数据集,这样经过m次随机采样操作,可以得到含m个样本的采样集。照这样,可以采样出T个含m个训练样本的采样集,然后基于每个采样集训练出一个基学习器,再将这些基学习器进行结合。结合时对多分类任务使用简单投票法,对回归任务使用简单平均法。(随机有放回) 2.优点:a...原创 2019-01-24 14:04:44 · 329 阅读 · 0 评论 -
Random Forest
什么是Random Forest?Random Forest是一个基于Bagging算法的,以CART(广义定义上是弱分类器如SVM,LR都可以)为基学习器,以优化方差为学习目标的的集成学习模型。可以使用上回归和分类两种场景下:在回归下,使用简单平均法。在分类下,使用简单投票法。 Bagging算法,又称为0.632自助法,也就是我们常说的自助有放回。基于这个特性,我们在使...转载 2019-02-25 11:59:03 · 172 阅读 · 0 评论 -
XGBoost
什么是XGBoost?XGBoost(eXtreme Gradient Boosting)算法是Gradient Boosting算法的高效实现版本,因其在应用实践中表现出优良的效果和效率,因而被工业界广为推崇。 XGBoost类似于GBDT,是一个基于CART树的,由多个弱分类器经过boost框架,以负梯度为学习策略的一种集成学习方法。 XGBoost的数学原理作为GB方...转载 2019-02-25 11:56:38 · 6655 阅读 · 0 评论 -
KNN分类算法
K-近邻算法简单来说,如下图所示这个绿色的球是什么颜色,就是说,离他最近的3个点(那就是k-3)是什么颜色。2/3是红色。如果是k-5呢?那就是蓝色。这就是knn算法。 一种很好理解的分类概率模型。 在KNN中,通过计算对象间距离来作为各个对象之间的非相似性指标,避免了对象之间的匹配问题,在这里距离一般使用欧氏距离或曼哈顿距离:欧氏距离差的平...原创 2019-01-28 14:57:28 · 180 阅读 · 0 评论 -
朴素贝叶斯分类
朴素贝叶斯是一种简单的,好解释的概率模型。如下是我们高中时候就学过的当B发生的时候A发生的概率,它被叫做事件B发生下事件A的条件概率 但是实际情况中,我们往往是需要通过A去推断B。先给出贝叶斯定理 通俗来说,就好比这么个道理,你在街上看到一个黑人,我问你你猜这哥们哪里来的,你十有八九猜非洲。为什么呢?因为黑人中非洲人的比率最高,当然人家也可能是美洲人或亚洲人,但在没有其...转载 2019-01-31 15:53:16 · 274 阅读 · 0 评论 -
K-means
什么是K-Means?K-Means是一种无监督的分类学习算法。无监督分类是指人们事先对分类过程不施加任何的先验知识,而仅凭数据,即自然聚类的特性,进行“盲目”的分类;其分类的结果只是对不同类别达到了区分,但并不能确定类别的属性。 基本原理K-Means 算法是以距离作为相似度的评价指标,用样本点到类别中心的误差平方和作为聚类好坏的评价指标,通过迭代的方法使总体分类的误差评分和函数...原创 2019-01-26 12:00:35 · 146 阅读 · 0 评论 -
GBDT和XGBoost区别
RF、GBDT和XGBoost都属于集成学习,集成学习的目的是通过结合多个基学习器的预测结果来改善单个学习器的泛化能力和鲁棒性。 GBDT和XGBoost区别1.传统的GBDT以CART树作为基学习器,XGBoost还支持线性分类器,这个时候XGBoost相当于L1和L2正则化的logistic回归(分类)或者线性回归(回归);2.传统的GBDT在优化的时候只用到一阶导数信息,XG...转载 2019-01-26 11:57:18 · 216 阅读 · 0 评论 -
决策树算法
决策树决策树算法是一个自顶向下的树(可以是二叉树,也可以是多叉树)。算法原理简单,易解释,分类性能较好。决策树是一种强大的、非概率的方法。 决策树非叶节点划分规则:1.信息增益最大的先分,通俗来讲就是针对于因变量区分度最大的标签2.离散变量采用是或不是的方法3.连续变量采用>=或<=的方法 分枝策略:分类树:信息熵回归树:最小均方差 主要...原创 2019-01-26 11:54:53 · 785 阅读 · 0 评论 -
GBDT
什么是GBDT?GBDT(梯度提升树),是一个以回归树为基学习器,以boost为框架的加法模型的集成学习。GBDT基于GB算法。GB算法的主要思想是,每次建立模型是在之前建立模型损失函数的梯度下降方向。损失函数是评价模型性能(一般为拟合程度+正则项),认为损失函数越小,性能越好。而让损失函数持续下降,就能使得模型不断调整提升性能,其最好的方法就是使损失函数沿着梯度方向下降。GBDT再...转载 2019-02-25 12:01:27 · 12630 阅读 · 0 评论