基于决策树的分类回归(随机森林,xgboost, gbdt)

最近找工作,因为觉得以前做过比赛, 觉得自己听懂xgboost,随机森林的, 今天同实验室的一个小姐姐问了我几个问题,才发现一团乱麻,连最基本的都不懂,所以整理了一下思路。这里不重点讲定义,主要说明关系。

决策树

决策树生成包含三个步骤: 特征选择 ——> 决策树生成——> 决策树修剪:

  1. 特征选择:理解: 根据某些规则选取使决策树性能最好的特征
    1.1 信息熵
    1.2 信息增益(缺点:偏向于选取值较多的特征)
    1.3 信息增益比(基于信息增益的改进,克服了了上述信息增益的缺点)
  2. 决策树生成
    2.1 ID3:在各个节点应用信息增益准测选择特征,递归构建决策树
    2.2 C4.5:在ID3的基础上进行了改进,其实就是使用了信息增益比准则进行特征选择, 其余不变
  3. 决策树剪枝:防止过拟合
    3.1 生成树建好后, 通过最小化loss function 去掉可以说使性能变差或无用的

因为决策树生成是一步一步的, 决策树生成是学习局部模型, 而剪枝是在整个生成树的基础上最小化loss function,所以剪枝是学习全局模型。

随机森林

随机森林是由多个决策树构成(M个), 每个决策树单独对数据进行预测, 最终结果取这M个决策树中类别最多的那一类。不同分类器是相互独立的。
在随机森林中,对每个决策树,加入了两个随机特征:<

  • 3
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值