1. 简述决策树原理?
决策树是一种拥有树形结构的监督学习分类算法模型。
结构包含根节点、内部节点和叶子节点。
根节点:代表包含数据集中所有数据的集合;
子节点:经过属性划分后产生的非叶子节点,代表经过条件划分后更加相似的样本数据;
叶子节点:代表某一个结果类别,在同一个类别的样本数据属于同一个类别。
关键是使每次的属性划分后样本属于同一类别。
2. 优缺点
优:
- 容易理解,能直观显示决策过程
- 可用于训练样本数较少的数据集
- 能够很好处理有缺失值的数据(对缺失值不敏感)
- 能很好处理有相关性特征的数据集
缺:
- 决策树结果可能不稳定,因为在数据中一个很小变化可能生成另一个完全不同的树
- 特征过多时容易出现过拟合
3. 如何处理过拟合
剪枝:
主动去掉分支来降低过拟合风险。