面试题【机器学习】决策树

本文详细介绍了决策树的基本原理,包括根节点、内部节点和叶子节点的定义,以及如何通过属性划分实现分类。同时,分析了决策树的优缺点,如易于理解、处理缺失值的能力强,但也易受数据变化影响导致不稳定。针对过拟合问题,文章探讨了剪枝策略,包括预剪枝和后剪枝,并比较了两者在时间和泛化能力上的差异。最后,讨论了熵、信息增益和基尼指数等划分选择标准在决策树构建中的作用。
摘要由CSDN通过智能技术生成

1. 简述决策树原理?

       决策树是一种拥有树形结构的监督学习分类算法模型。

结构包含根节点、内部节点和叶子节点。

根节点:代表包含数据集中所有数据的集合;

子节点:经过属性划分后产生的非叶子节点,代表经过条件划分后更加相似的样本数据;

叶子节点:代表某一个结果类别,在同一个类别的样本数据属于同一个类别。

关键是使每次的属性划分后样本属于同一类别。

 

2. 优缺点

优:

  1. 容易理解,能直观显示决策过程
  2. 可用于训练样本数较少的数据集
  3. 能够很好处理有缺失值的数据(对缺失值不敏感)
  4. 能很好处理有相关性特征的数据集

缺:

  1. 决策树结果可能不稳定,因为在数据中一个很小变化可能生成另一个完全不同的树
  2. 特征过多时容易出现过拟合

 

3. 如何处理过拟合

剪枝:

主动去掉分支来降低过拟合风险。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值