决策树是如何处理不完整数据的？

AndrewZhou924

于 2018-09-06 21:29:06 发布

阅读量1.3k

点赞数

分类专栏：机器学习文章标签：机器学习决策树

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Torres_10/article/details/82468485

版权

机器学习专栏收录该内容

13 篇文章 0 订阅

订阅专栏

本文探讨了决策树在遇到不完整数据时的处理方法，包括在选择分裂属性时、分类过程中以及对测试集样本分类时如何处理缺失值。提出了三种策略：忽略缺失值、补充缺失值和概率化缺失值，并解释了每种策略的适用场景和潜在影响。

摘要由CSDN通过智能技术生成

首先我们来看一下知乎上的不错回答（https://www.zhihu.com/question/34867991/answer/151775210）

缺失值问题可以从三个方面来考虑

1. 在选择分裂属性的时候，训练样本存在缺失值，如何处理？

假如你使用ID3算法，那么选择分类属性时，就要计算所有属性的熵增(信息增益，Gain)。假设10个样本，属性是a,b,c。在计算a属性熵时发现，第10个样本的a属性缺失，那么就把第10个样本去掉，前9个样本组成新的样本集，在新样本集上按正常方法计算a属性的熵增。然后结果乘0.9（新样本占raw样本的比例），就是a属性最终的熵。

2. 分类属性选择完成，对训练样本分类，发现属性缺失怎么办？

比如该节点是根据a属性划分，但是待分类样本a属性缺失，怎么办呢？假设a属性离散，有1,2两种取值，那么就把该样本分配到两个子节点中去，但是权重由1变为相应离散值个数占样本的比例。然后计算错误率的时候，注意，不是每个样本都是权重为1，存在分数。

3. 训练完成，给测试集样本分类，有缺失值怎么办？

这时候，就不能按比例分配了，因为你必须给该样本一个确定的label，而不是薛定谔的label。这时候根据投票来确定，或者填充缺失值。

如果说确实这些缺失值对决策树的创建有影响，可以考虑以下方法

采用抛弃缺失值
抛弃极少量的缺失值的样本对决策树的创建影响不是太大。但是如果属性缺失值较多或是关键属性值缺失,创建的决策树将是不完全的,同时可能给用户造成知识上的大量错误信息,所以抛弃缺失值一般不采用。只有在数据库具有极少量的缺失值同时缺失值不是关键的属性值时,且为了加快创建决策树的速度,才采用抛弃属性缺失值的方式创建决策树。
补充缺失值
缺失值较少时按照我们上面的补充规则是可行的。但如果数据库的数据较大,缺失值较多(当然,这样获取的数据库在现实中使用的意义已不大,同时在信息获取方面基本不会出现这样的数据库),这样根据填充后的数据库创建的决策树可能和根据正确值创建的决策树有很大变化。
概率化缺失值
对缺失值的样本赋予该属性所有属性值的概率分布,即将缺失值按照其所在属性已知值的相对概率分布来创建决策树。用系数F进行合理的修正计算的信息量,F=数据库中缺失值所在的属性值样本数量去掉缺失值样本数量/数据库中样本数量的总和,即F表示所给属性具有已知值样本的概率。

注：西瓜书上面的解决方法是：让同一个样本以不同的概率划入到不同的子节点中去

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

AndrewZhou924 CSDN认证博客专家 CSDN认证企业博客

码龄7年

47: 原创

13万+: 周排名

175万+: 总排名

25万+: 访问

: 等级

2261: 积分

67: 粉丝

318: 获赞

33: 评论

878: 收藏

私信

关注

分类专栏

Python基础 18篇
算法 2篇
AI论坛 1篇
机器学习 13篇
杂谈 8篇
Web 1篇
数据库 2篇
邮箱开发 3篇
学习笔记 4篇
C/C++ 3篇
正则表达式 2篇
深度学习 6篇
git 1篇
成长路上 4篇
Java 1篇
CS231n 7篇
个人总结

最新评论

CMake是什么？有什么用？
#15: 讲得太清晰啦！
CMake是什么？有什么用？
李舜生扶我起来: 意思就是源文件按照cmake工具的规范给出cmakelist文件, cmake工具就可以通过这个文件给你生成cmakefile文件, 这个文件的作用就是让你直接用cmake工具里面的make命令,直接编译好源文件工程? 是这个意思不?
程序员所说的「轮子」是什么东西？
有故事的狗: 所以造轮子是封装api吗
CMake是什么？有什么用？
DashingPig: 十分感谢。觉得makefile和cmake有关系，但不知道是啥关系，看了这个之后，清晰多了
CMake是什么？有什么用？
尼晓健: 我也重新看了下，感觉认识更深刻了。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。