python数据离散化代码_数据离散化与Python实现

一、原理

数据离散化(也称,数据分组),指将连续的数据进行分组,使其变为一段离散化的区间。

根据离散化过程中是否考虑类别属性,可以将离散化算法分为:有监督算法和无监督算法。事实证明,由于有监督算法充分利用了类别属性的信息,所以再分类中能获得较高的正确率。

常用的数据离散化方法:

等宽分组

等频分组

单变量分组

基于信息熵分组

数据离散化所使用的方法需要事先对数据进行排序,且假设待离散化的数据是按照升序排序。

1、等宽分组

原理:根据分组的个数得出固定的宽度,分到每个组中的变量的宽度是相等的。

如:现在有一个待离散化的数组[1, 7, 12, 12, 22, 30, 34, 38, 46],需要分成三组,

那么,

,即宽度 =( 46 - 1)/3 = 15

分组后结果范围:[1,16],(16, 31],(31, 46],第一个分组取的是全闭区间,

分组后结果:[1, 7, 12, 12],[22, 30],[34, 38, 46]

2、等频分组

原理:等频分组也叫分位数分组,即分组后,每个分组的元素个数是一样的。

如:现在有一个待离散化的数组[1, 7, 12, 12, 22, 30, 34, 38, 46],需要分成三组,

那么,

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值