决策树
决策树是一种常见的机器学习方法,这种方法简单、直观,并且我们在用建立完决策树的时候,可以将这颗树进行可视化。决策树也是后面集成学习中常用的基分类器。决策的过程就是使用我们已经有样例中的属性信息来一步一步进行判断。
上图是一个非常直观的决策树,根据西瓜的各个属性从上到下建立各个分支,最后判断是否是好瓜还是坏瓜。建立决策树应该考虑的问题:
- 样例中的属性哪些放在决策树的第一层哪些放在决策树的第二层,换句话说,一个西瓜有那么多的属性,我们应该先考虑哪个属性再考虑哪个属性来帮助我们判断是好瓜还是坏瓜,这样也体现了哪个属性对我的分类结果更为重要。
- 决策树的建立在什么时候停止,这棵树到多深到多宽才算是建好了。
这些问题的解决对建立决策树至关重要,我们一步一步慢慢理解。
1. 划分选择(属性选择)
这一部分回答上面的第一个问题,先考虑哪个属性。我们引入“熵”的概念,其实这个概念在我们高中的时候碰到过,