连续系统离散化_机器学习：决策树学习之处理连续属性值问题

最新推荐文章于 2022-11-20 20:45:50 发布

weixin_39885690

最新推荐文章于 2022-11-20 20:45:50 发布

阅读量614

点赞数

文章标签：连续系统离散化

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39885690/article/details/111366592

版权

现实学习任务中，决策树不仅基于离散属性来生成，也会用到连续属性。由于连续属性的可取值数目不再有限，因此，不能直接根据连续属性的可取值来对结点进行划分。此时，连续属性的离散化技术可派上用场。

数据离散化是一个很大的研究主题，学者们提出的离散化技术也很多，可以分为：无监督离散化和有监督离散化。

无监督离散化常用的有等深分箱法和等宽分箱法：等深分箱法让每个分箱中的样本数目保持一致；等宽分箱法让每个分箱中的取值范围保持一致。

等宽分箱法也叫均分法，就是把一个连续取值的区间等分为若干段，每一段赋一个离散值，常用的有ten-binning。

有监督离散化常用的有二分法，即将连续取值的属性按选定的阈值分割成布尔属性(二值属性)：

※ 按照某个连续属性A排列训练样本，找出类标记不同的相邻样本

※ 计算类标记不同的相邻样本的属性A的取值的中间值，产生一组候选阈值，可以证明产生最大信息增益的阈值一定在这样的边界中

※ 计算与每个候选阈值关联的信息增益，选择具有最大信息增益的阈值来离散化连续属性A

二分法的扩展是最小描述长度法(MDL)，MDL法将连续取值的属性分割成多个区间，而不是单一阈值的两个区间。

weixin_39885690

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。