欢迎使用CSDN-markdown编辑器

最新推荐文章于 2021-01-07 23:01:28 发布

doupi520

最新推荐文章于 2021-01-07 23:01:28 发布

阅读量143

点赞数

分类专栏： A.I

A.I 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

决策树的变量可以有 2 种：

数字型（Numeric）：变量类型是整数或者浮点数（如收入使用>= <= > <来分割）
名称型（Nominal）：类似编程语言中的枚举类型，变量只能从有限的选项中选取，比如“婚姻状况”，只能是已婚和未婚。使用=来分割。

决策树的构建基本步骤：

开始，所有记录看做一个节点；
遍历每个变量的每一种分割方式，找到最好的分割点；
分割成两个节点N1和N2；
对N1和N2分别机型执行2,3步，直到每个节点足够“纯”为止。

这里的“纯”，是决策树构建的关键！！！
如何量化纯度？？

有3种方法

Gini不纯度
Gini =
熵(Entropy)
Entropy=
错误率
Error=
上面3个公式均是值越大，表示越“不纯” ，越小表示越“纯”。三个公式用一个即可。实践证明三种公式的选择对最终的分类准确率影像不大。一般选择熵公式。

纯度差：也叫信息增益（Information Gain），公式如下：
这里写图片描述
其中，I代表不纯度（也就是上面3个公司的任意一种）， K代表分割的节点数，一般K = 2。vj表示子节点中的记录数目。上面公式实际上就是当前节点的不纯度减去子节点不纯度的加权平均数，权重由子节点记录数与当前节点记录数的比例决定。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
欢迎使用CSDN-markdown编辑器

决策树的变量可以有 2 种：数字型（Numeric）：变量类型是整数或者浮点数（如收入使用>= <= > <来分割）名称型（Nominal）：类似编程语言中的枚举类型，变量只能从有限的选项中选取，比如“婚姻状况”，只能是已婚和未婚。使用=来分割。决策树的构建基本步骤：开始，所有记录看做一个节点；遍历每个变量的每一种分割方式，找到最好的分割点；分割成两个节点N1和N2；对N1和N2分别
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。