决策树
1.1决策树模型
决策树是一种典型的分类方法
比如说有一组数据,特征量是“是不是折耳”、“是不是圆脸”、“有没有胡须”,输入特征x是这三项,预测目标输出y为“是不是猫”,x采用分类(离散值)。
决策树模型:
椭圆形的节点都为决策节点,矩形框称为叶子节点。
两边子节点的划分属性不一致原因在于:原样本集经过Ear shape属性判断之后,样本划分为两个部分(Ear shape=Pointy;Ear shap=Floppy),这两个部分再根据熵或Gini系数计算最佳划分属性时,可能会得到不同的结果,即:可能是Face shape 也可能是 Whiskers。而由于经过第二层(Face shape/Whiskers)的划分后样本标签已经纯净(label列均为统一的cat或Not cat),此时该模型训练就结束了,不需要再进行下一个最优划分属性的计算了。
1.2 如何建立一个决策树
决策树是由顶端node不断分裂而形成的。
1.如何选择在每个节点中生成哪些特征?
优先使用information gain最大的特征来分裂,即先用最有效的特征。对于预测是否为