决策树

决策树是一种类似于流程图的树形结构,自上而下的给出分类规则。

决策树方法分为决策树的构建和剪枝。

1.决策树的构建是指从所有的可选属性中选择最优的分裂属性(最优即把训练集分为彼此差异最大的几部分)。其中,如何选择分裂属性是关键,我们通常用信息熵来描述信息的不确定性,用信息增益来描述信息熵减少的程度。

x属性在y数据中期望信息量:

信息增益:

gain(p)=info(T) - info(H)

2.决策树的剪枝

2.1先剪枝:在建立决策树的过程中通过提前停止生成分枝对决策树进行剪枝。

例:某分枝对应的样本虽然不完全属于同一类别,但仍为该分枝的一个叶子节点,即需要剪枝。

2.2后剪枝:构建一个决策树后,通过比较剪枝与否的分类错误率来决定是否剪枝。

例:对于树中的每个非叶子节点,计算该分枝被剪枝后的新书所对应的分类错误率;同时根据每个分枝的分类错误率及每个分枝的权重计算该节点不被剪枝时的分类错误率,比较两者的大小。




评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值