一、决策树简介
决策树是一个树结构,由节点和有向边组成。节点包括内部节点和叶子节点,内部节点表示一个特征或一个属性,叶子节点表示一个分类;有向边是对节点的属性判断。使用决策树进行决策的过程,就是从根节点,按照边上的条件判断,直到划分到叶子节点的分类。就像机器学习圣经《西瓜书》上,如何挑选一个好瓜一样的。那么问题来了,如何构建决策树呢?实际上就是如何选特征,对数据集进行不断的划分~
![71df1da61a0ffccb4f3750d1b9c082ef.png](https://i-blog.csdnimg.cn/blog_migrate/404b8fb538885ab97d5bc0860737d6c3.jpeg)
二、决策树理论
在当前节点使用哪个特征作为切分判定,取决于切分后节点数据集合中的类别纯度。切分后的数据越纯,那么当前切分就越合理。那么如何衡量类别的纯度呢?这里有3个指标。
1、熵(针对分类)
- 信息量:
- 信息熵:信息量的期望
- 信息增益:分类前,熵大;分类后,熵小;信息增益表达熵的变化。特征
对训练集