决策树算法梳理

1. 信息论基础(熵 联合熵 条件熵 信息增益 基尼不纯度)

:描述一个时间的不确定性。
联合熵:A与B同时发生的信息熵。
条件熵:在A发生的情况下B发生的信息熵。
信息增益:Gain为A为特征对训练数据集D的信息增益,它为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差。
基尼不纯度:基尼不纯度,是指将来自集合中的某种结果随机应用在集合中,某一数据项的预期误差率。

2.决策树的不同分类算法(ID3算法、C4.5、CART分类树)的原理及应用场景

  1. ID3算法
    ID3算法的核心是在决策树各个结点上应用信息增益准则选择特征,递归地构建决策树。
    具体方法是:从根节点(root node)开始,对结点计算所有可能的特征信息增益,选择信息增益最大的特征作为结点特征,由该特征的不同取值建立子结点;再对子结点递归地调用以上方法,构建决策树;直到所有特征的信息均很小或没有特征可以选择为止。

  2. C4.5
    C4.5算法与ID3算法相似,C4.5算法对ID3算法进行了改进。C4.5在生成过程中,用信息增益比来选择特征。

  3. CART分类树
    CART是在给定输入随机变量X条件下输出随机变量Y的条件概率分布的学习方法。

3. 回归树原理

决策树(decision tree)也称为分类树(分类)或者回归树(数值预测)。是一种有监督的机器学习算法,是一个分类算法。在给定训练集的条件下,生成一个自顶而下的决策树,树的根为起点,树的叶子为样本的分类,从根到叶子的路径就是一个样本进行分类的过程。

决策树由结点和有向边组成。结点有两种类型:内部节点和叶节点,内部节点表示一个特征或属性,叶节点表示一个类。 分类的时候,从根节点开始,对实例的某一个特征进行测试,根据测试结果,将实例分配到其子结点;此时,每一个子结点对应着该特征的一个取值。如此递归向下移动,直至达到叶结点,最后将实例分配到叶结点的类中。

4. 决策树防止过拟合手段

合理、有效地抽样,用相对能够反映业务逻辑的训练集去产生决策树
剪枝:提前停止树的增长或者对已经生成的树按照一定的规则进行后剪枝。

5. 模型评估

自助法(bootstrap):
训练集是对于原数据集的有放回抽样,如果原始数据集N,可以证明,大小为N的自助样本大约包含原数据63.2%的记录。当N充分大的时候,1-(1-1/N)^(N) 概率逼近 1-e^(-1)=0.632。抽样 b 次,产生 b 个bootstrap样本,则,总准确率为(accs为包含所有样本计算的准确率):
a c c b o o t = 1 b ∑ i = 1 b ( 0.632 × ε i + 0.368 × a c c s ) accboot=1b∑i=1b(0.632×εi+0.368×accs) accboot=1bi=1b(0.632×εi+0.368×accs)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值