1.决策树模型定义
从根节点开始,一步步走到叶子节点的过程,所有的数据最终都会落到叶子节点。
根节点:第一个选择点;
中间过程:非叶子节点与分支;
叶子节点:最终决策的结果。
2.决策树模型的训练与测试
训练阶段:从给定的训练集构造出一颗树来,从根节点开始选择特征,特征的选择是根据信息熵增益的大小来进行选择,增益越大越优先进行选择。
测试阶段:根据构造的树模型,从上到下,走一遍模型就可以了。
3.决策树模型训练过程
训练目标:通过一种衡量标准,来计算通过不同特征进行分支选择后的分类情况,找出最好的那个当成根节点,以此类推。
衡量标准有多种算法,比如信息增益(ID3),信息增益率(C4.5),使用GINI系数来当做衡量标准(CART)
最常用的是信息增益,特征X使得类Y的不确定性减少的程度,减少的程度越大,信息增益越大,就越应该优先作为分支。
不确定性就是熵,用如下公式进行表述。