之所以需要学习,是因为样本不是完全的,如果训练集是一个完全的样本,一个样本总体,意味着模型的最后模样。
设计好的决策树:
学习这么多天后,隐约感觉我这里的“决策树”和DecisionTreeClaassifier中决策树的概念并不一致,具体体现在DecisionTreeClaassifier的一些参数上,如max_features、min_samples_leaf等,我用id3生成的决策树和训练样本的关系是一一对应的,是过拟合的,可以反映训练样本的面貌,但是对于预测,可能会有失误。
但是,如果一个训练样本是一个总体,那么就没有这种失误的风险。下面就是上面这棵树的一个样本总体。
特征A,特征B,特征C,特征D,特征E,结果RES
A,B,C,D,E,RES
1,5,10,12,3,no
1,8,10,12,4,yes
0,8,9,13,4,yes
2,6,11,12,3,yes
0,6,9,13,3,no
1,5,10,13,3,no
2,8,9,12,3,yes
2,8,9,13,4,no
1,6,11,13,4,no
1,7,9,12,3,yes
1,7,11,