优点:
(1)输出结果易于理解,
(2)对缺失值不敏感,可以处理无关数据,可以处理非线性数据
(3)对于异常点的容错能力好,健壮性高
由于递归分区只使用最合适的二分问题来生成决策树,所以非重要变量不会影响结果。此外,二分问题对数据点集进行中心分割,因此决策树对极值(即异常值)是具有包容性的。
(4)不需要提前归一化
(5)可以处理多维度输出的分类问题。
(6) 能够同时处理数据型和常规型属性。其他的技术往往要求数据属性的单一。
缺点:
(1)容易过拟合,需要剪枝或者RF避免
(2)只注重单个特征的局部划分,而不能想LR那样考虑整体的特征,在处理特征关联性比较强的数据时表现得不是太好
(3)有些问题决策树很难表达,如:异或问题、奇偶校验或多路复用器问题