决策树 基本流程 根节点 只有一个,树的开始节点 子节点 根节点和叶子节点中间的节点 叶 子节点 树最后的节点,其下再无分支 每个节点都是一个集合,代表一个划分属性 每个分支都相当于一个属性的值 分支的过程就是分类 叶子节点就是分类结果 流程 决策树分类的过程是一个递归过程 1--7 是判断是否是递归返回的情况 8--16 是分类的具体过程 8 中的a*由划分选择中的方法决定 划分选择 信息增益 信息熵(information entropy):度量样本集合纯度(purity) pk是集合D内第k个样本所占比例 信息熵越低,纯度越高 信息增益(information gain) 集合加绝对值表示集合的基数即集合长度 增益越大,属性a分类效果越好 偏好取值数目较多的属性(缺陷:如将编号作为一个属性,分类后一个一组,分类失去作用,不具泛化能力) 增益率(gain ratio) ID3(迭代二分器) 4.4 为属性a的固有值,a可能取值数目越多,4.4值越大 先选择信息增益高于平均水平的属性,再找增益率最高的属性 基尼系数 gini index CART决策树 挑选两个随机样本,不一致的概率 基尼系数越小,纯度越高 属性a的基尼系数 剪枝(pruning)处理 剪枝 预剪枝 在划分之前判断将当前节点化成叶节点能否增加泛化能力,若不能则将其化成叶节点 判断分类前后,纯度是否上升,没有上升则不以该属性划分 优点:减少了不必要的分类,节约时间成本 缺点:有欠拟合的风险 后剪枝 训练成一颗树后,自下而上对非叶子节点进行判断,若将其改为叶子节点可以提高泛化能力则改变 判断去掉该节点是否有利于提高泛化能力,提高则去掉 优点:相较预剪枝保留较多分支,欠拟合风险小 缺点:时间花销成本高 连续与缺失值 连续值处理 连续指该属性的值应为连续的量,如密度重量等 采取二分法,取两点的中间点作为分类点, 当前划分属性为连续值,则可以反复将其作为划分属性 离散属性则不行 缺失值处理 让该样本以不同的概率归到不同的类里 多变量决策树 非叶节点不再是一个属性,而是一个类似线性模型的分类器 请各位大佬批评建议指正!!! 参考文献: 周志华. 机器学习