决策树是一种基本的分类和回归的方法,本章主要讨论分类的决策树。
一、决策树的介绍和应用
1.1决策树介绍
决策树是一种常见的分类模型,在金融分析、医疗辅助诊断方面有着丰富广泛的应用;其核心思想是基于树结构对数据进行划分,即if-then规则的集合,这种思想是人类思考时最本能的思考方式。
例如在婚恋市场中,女方通常会先看男方有没有房产,其次看男方有没有车产,最后再看男方有没有稳定的工作等等···基于这些思考与判断,最后得出是否要和这位男方继续深入了解的判断。
决策树主要优点如下:
- 具有很好的可解释性,模型可以生成可以理解的规则;
- 可以发现特征的重要程度;
- 模型的计算复杂度比较低,分类速度快。
决策树的缺点如下:
- 模型容易过拟合,需要采取剪枝技术处理;
- 不能很好地利用连续性地特征;
- 预测能力比较有限,无法达到强监督效果;
- 方差较高,数据分布的轻微改变很容易导致树结构完全不同。
1.2 决策树的应用
由于决策树模型中自变量和 因变量的非线性关系以及决策树简单的计算方法,使得它成为了最为广泛使用的基模型。梯度提升树(GBDT),XGBoost,以及LightGBM等集成模型都采取了决策树作为基础模型。在广告计算、金融领域,大放异彩。已经成为当前与神经网络相提并论的复杂模型,更是数据挖掘比赛中的常客。
决策树在一些需要明确解释且提取分类规则的场景中被广泛使用,而其他的机器学习模型却很难做到这一点。比如在医疗辅助系统中,为了方便相关专业人士的决策,常常将决策树算法用于辅助病症检测。例如在一个哮喘病患者识别模型当中,许多高级模型的算法有时表现会非常差。这是因为这些算法会认为患有剧烈咳嗽的病人患哮喘病的概率很小,然而医生们非常清楚,剧烈咳嗽要立刻进行检查和治疗。因此,决策树模型可以用来帮助决策并民明确分类规则。
最近时间比较赶,下面的理论内容过后补上