一.综述
决策树其实原理上来说是比较简单的,估计很不好实现。。
决策树就是说对于训练集D和特征集合A,每一次从A中选取一个最优的特征用来划分集合D(选取最优的方法一般是通过信息增益或者信息增益比),划分到D1,D2,D3...
Dk之后,再次对于这些子集合进行特征选取,只不过这次是从A-Ag中选取,因为Ag已经在上次用过了。但是还是有几个地方需要注意的:
①特征集用完了
特征集合用完了,但是却还没有进行完全的划分,那么这个时候就选择直接统计当前集合Di所有的样本,看看其中最多的点属于哪一类,就把这个Di变成叶节点,并且
标注为该标签。
②Di全部属于一类,那么就不用再挑选特征了,直接画标签就好了
③对于子集合Di,里面剩下的所有特征{A},对于这个集合的信息增益都很少,小于某个阈值,那么就把这一坨集合归成叶节点,标注的方法同①,找样本点所在最多的分类
二.信息增益计算
说到决策树,看看信息增益,