3 决策树(一)

3.1  决策树的构造

3.1.1 信息增益

熵(entropy)是信息的期望值。如果待分类的事物可能划分在多个分类中,则符号xi的信息定义为:,p(xi)为该分类的概率。

为了计算熵,需计算所有类别所有可能包含的信息期望值:,n是分类的数目。

3.1.2 划分数据集

分类算法需要:上述的测量信息熵、划分数据集、度量划分数据集的熵。

注意:这里数据集需要满足以下两个办法:

<1>所有的列元素都必须具有相同的数据长度

<2>数据的最后一列或者每个实例的最后一个元素是当前实例的类别标签。

3.1.3 递归构建决策树

递归结束条件:程序遍历完所有划分数据集的属性,或者每个分支下的所有实例都有相同的分类。

如果数据集已处理完所有属性,但类标签依然不唯一。此时,会采用多数表决方法决定该叶子节点分类。

该叶节点中属于某一类最多的样本数,那么我们就说该叶节点属于那一类!。

 

转载于:https://www.cnblogs.com/hudongni1/p/5024450.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值