1、证明对于不含冲突数据(即特征向量完全相同但标记不同)的训练集,必存在与训练集一致(即训练误差为0)的决策树
anser 1:假设不存在与训练集一致的决策树,那么训练集训练得到的决策树至少有一个节点上存在无法划分的多个数据(若节点上没有冲突数据,那么总是能够将数据分开的)。这与前提-不含冲突数据 矛盾,因此必存在与训练集一致的决策树
anser 2:考虑决策树的生成(书p74图4.2),算法生成叶节点,并递归返回条件有:
当前节点的所有样本属于同一类,叶节点类标签 -> 当前类;
当前节点的所有样本在属性上取值相同,叶节点类标签 -> 样本中最多类;
由此可见,若两训练数据样本特征向量相同,那么它们会到达决策树的同一叶节点(只代表某一类),若二者数据标签不同(冲突数据),则会出现训练误差,决策树与训练集不一致。
如果没有冲突数据,到达某节点的样本会出现以下两种情况:
样本间特征向量相同且属于同一类,满足递归结束条件,该节点为叶节点,类标签正确(无训练误差);
样本间特征向量不同时,递归结束条件不满足,数据会根据属性继续划分,直到上一条情况出现。
综上得证,当数据集不含冲突数据时,必存在与训练集一致(训练误差为0)的决策树。
2、试析使用“最小训练误差”作为决策树划