1.事先用人工识别出来一些样本,(以动物为例子,提前标注好属性,类别)作为训练集
2.利用决策树算法得到决策树
3.用未知样本输入数据模型,得到预测
决策树的一个重点是识别特征,圈里面就是特征(能区分出来的就是特征)
一.ID3算法
-
往往使用启发式算法来进行决策树的构造,例如,使用贪婪算法对每个结点构造部分最优决策树
-
对于一个决策树的构建,最重要的部分就在于其分支处理,即确定在每个决策结点处的分支属性
-
分支属性的选取即对决策节点上选择哪一个属性来对数据集进行划分,要求每个分支中样本的类别纯度尽可能高,而且不要产生样本数量太少的分支
思想:每次找一个属性,最具有区分度的,看是否把所有样本区分开,比如动物的属性。但是明显一个属性是无法区分的。所以启发式如果做?启发式一次找一个属性,这个属性最有区分性