机器学习——决策树 知识点总结

本文详细介绍了决策树算法,包括其特性、优缺点、特征选择的依据信息增益和信息增益比,以及决策树的生成和剪枝过程。重点讨论了ID3、C4.5和CART算法,特别提到了CART算法中使用基尼指数选择特征和最小二乘回归树的生成。此外,文章还探讨了随机森林作为决策树集成方法的优点和避免过拟合的策略。
摘要由CSDN通过智能技术生成
一、决策树阐述、特性、优缺点:
1.阐述、特性:
决策树是一种基本的分类和回归算法,主要包含三个部分:特征选择、决策树的生成和剪枝。
首先,决策树的构成是由和边,结点包括内部结点和外部结点,内部结点表示特征,外部结点表示类别。
其次,决策树学习本质是从训练数据中归纳出一组分类规则,使它与训练数据矛盾较小的同时具有较强的泛化能力。另一个数学角度:由训练数据集估计条件概率,是一种判别式模型。
损失函数是正则化的极大似然函数。学习的策略是损失函数最小化。(NP难问题,通常采用启发式算法,SMO就是一个启发式算法,包括特、生、剪三个步骤)
最后,决策树算法思想是递归的选择最有特征,根据最优特征对数据进行分割,这一过程对应着决策树的构建和特征空间的划分。
决策树有可能产生过拟合,所以需要剪枝,减去过于细分的结点。
2、优缺点
优点:构造简单、判别速度快; 对数据不需要任何加工; 对于unbalance 的数据效果好。
缺点:泛化能力差,容易过拟合; 对新增的样本,需要调整整棵树的结构。

二、特征选择:
特征选择的准则是:信息增益或信息增益比,选择使信息增益最大的特征分割。
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值