决策树简介:
决策树(DT)是用于分类和回归的非参数监督学习方法。目标是创建一个模型,通过学习从数据特征推断出的简单决策规则来预测目标变量的值。
决策树算法在机器学习中算是很经典的一个算法系列了。它既可以作为分类算法,也可以作为回归算法,同时也特别适合集成学习比如随机森林。
决策树的一些优点是:
- 简单易懂和解释。树木可以看到。
- 需要很少的数据准备。其他技术通常需要数据规范化,需要创建虚拟变量并删除空值。但请注意,此模块不支持缺失值。
- 使用树的成本(即,预测数据)是用于训练树的数据点的数量的对数。
- 能够处理数字和分类数据(能处理非数值的数据)。其他技术通常专门用于分析仅具有一种变量类型的数据集。
- 使用白盒模型。如果在模型中可以观察到给定的情况,则可以通过布尔逻辑轻松解释条件。相反,在黑盒模型中(例如,在人工神经网络中),结果可能更难以解释。
- 可以使用统计测试验证模型。这使得可以考虑模型的可靠性