树系列
树系列
LightYoungLee
啊嘿嘿啊哈哈
展开
-
树系列(三)LightGBM
本文主要介绍LightGBM的两个提高GBDT算法速度的子算法:1. GOSS: 减少训练样本,减少训练时遍历样本的时间2. EFB: 减少参与计算的特征,减少寻找具有最优分割点的最优特征的耗时原创 2019-12-09 21:31:02 · 985 阅读 · 0 评论 -
树系列(五)xgboost
核心思想核心为加法模型,优化方法采用前向分步算法,gbdt的延伸,并且成功的添加了正则项,保证模型的泛化能力强,推导过程根据gbdt的公式可得,fm(x)=fm−1(x)+T(x;θm)" role="presentation">fm(x)=fm−1(x)+T(x;θm)fm(x)=fm−1(x)+T(x;θm) f_m(x)=f_{m-1}(原创 2018-02-06 17:10:04 · 244 阅读 · 0 评论 -
树系列(四)GBDT
模型采用加法模型和前向分步算法,以决策树为基函数的提升方法被称为提升树,由如下公式表示,fM(x)=∑m=1MT(x;θM)" role="presentation">fM(x)=∑m=1MT(x;θM)fM(x)=∑m=1MT(x;θM) f_M(x)=\sum_{m=1}^{M}T(x;\theta _M) T(x;θM)"原创 2018-02-06 17:04:19 · 386 阅读 · 0 评论 -
树系列(二)随机森林
问题提出想象一下,一棵树想要达到很高的正确率,那么决策树采取的一种手段是增大树的深度,让树变得更加庞大,这样树的分支就会越来越多,把这种情况推向极限的话,一棵树的每个叶子节点中只包含一个数据,那么当构造完树后每个数据在树上运行的时候是肯定会落入正确的叶节点中,这个时候树的每条路径都是为某一个数据私人订制的,这样的模型就过拟合了,因为泛化能力太差,如果来了一个未知的数据,根据树的运算规则得到一个原创 2018-02-06 16:50:59 · 606 阅读 · 0 评论 -
树系列(一)决策树
核心思想这里只讨论决策树用作分类任务的时候的情形,回归任务类似,下面阐述的是训练阶段的内容,给定数据集和属性集,每条数据由两部分组成,第一部分是属性集的所有取值组合中的一种可能取值,第二部分是这条数据的标签,算法的核心思想是以数据集为基础,找到一种方法来划分属性集,划分的结果是许多个属性子空间,每个子空间都对应了一棵树中从根节点到叶子节点的一条路径,所有属性子空间对应的路径拼接在一起就组成原创 2018-02-06 16:45:03 · 297 阅读 · 0 评论