python连续变量离散化_python数据分析之数据离散化——等宽&等频&聚类离散

最新推荐文章于 2024-04-19 18:55:03 发布

Janelle Chen

最新推荐文章于 2024-04-19 18:55:03 发布

阅读量2.1k

点赞数

文章标签： python连续变量离散化

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_34268604/article/details/112023740

版权

本文介绍了数据离散化的重要性和多种方法，包括等宽离散法、等频离散法和聚类离散法。等宽法根据固定区间划分数据，等频法则保证每个区间有相同数量的记录，而聚类离散利用K-Means等算法将数据分组。文章通过实例展示了这些方法的应用，并对比了它们的优缺点。

摘要由CSDN通过智能技术生成

数据离散化的意义

数据离散化是指将连续的数据进行分段，使其变为一段段离散化的区间。分段的原则有基于等距离、等频率或优化的方法。

离散化的原因

1.模型限制

比如决策树、朴素贝叶斯等算法，都是基于离散型的数据展开的。如果要使用该类算法，必须将离散型的数据进行。有效的离散化能减小算法的时间和空间开销，提高系统对样本的分类聚类能力和抗噪声能力。

2. 离散化的特征更易理解

比如工资收入，月薪2000和月薪20000，从连续型特征来看高低薪的差异还要通过数值层面才能理解，但将其转换为离散型数据(底薪、高薪)，则可以更加直观的表达出了我们心中所想的高薪和底薪。

3. 使模型结果更加稳定

比如如果对用户年龄离散化，20-30作为一个区间，不会因为一个用户年龄长了一岁就变成一个完全不同的人。当然处于区间相邻处的样本会刚好相反，所以怎么划分区间是门学问，如果按区间离散化，划分区间是非常关键的。

4. 调高计算效率

离散特征的增加和减少都很容易，易于模型的快速迭代。(离散特征的增加和减少，模型也不需要调整，重新训练是必须的，相比贝叶斯推断方法或者树模型方法迭代快)。稀疏向量内积乘法运算速度快，计算结果方便存储，容易扩展。

5. 图像处理中的二值化处理

将256个亮度等级的灰度图像通过适当的阈值选取而获得仍然可以反映图像整体和局部特征的二值化图像。这样有利于图像的进一步处理，使图像变得简单，而且数据量减小，能凸显出感兴趣的目标的轮廓。

连续数据离散化方法

等宽离散法：等距区间或自定义区间进行离散，有点是灵活，保持原有数据分布<

最低0.47元/天解锁文章

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。