题
4.1
决策树停止生成的三个条件:
1.当前结点包含的样本全属于同一类别,无需划分
2.当前属性集为空,或是所有样本在所有属性上取值相同,无法划分
3.当前结点包含的样本集合为空,不能划分
而题目中特征向量完全相同但标记不同的,就属于第二种情况里的所有样本在所有属性上取值相同,无法划分,这时候会将样本数最多的类返回,以后训练数据用此决策树预测时都返回同一个类,因此若要保证训练误差为0,那么一定不能存在特征向量完全相同但类不同的数据,即不能存在冲突数据。(因为在用训练数据做测试时,特征向量相同一定会被归到一个类里,但是实际中他们特征向量相同,但类不同,这样就有了误差)
4.2
训练样本是有限的,并不能代表整个样本空间,因此单纯的使用最小训练误差只是对这个训练集数据效果不错,但是对整个样本空间的数据来讲是极其容易引起过拟合的。因为决策树里挑选划分特征是为了挑出对分类影响大的特征,但训练误差这个有很强的偶然性,不能代表一般规律。