常用特征离散化方法

1规定划分区间的参数,取定长的间隔将特征放入不同的箱子中,这种方法对异常点比较敏感。,

2 根据频率划分箱子,会出现特征相同却不在一个箱子中的情况,需要在划分完成后进行微调。

先对特征值进行sort,然后评估分割点,划分或者合并

3 1R方法:将前面的m个实例放入箱子中如果后面实例放入箱子时,比对当前实例的标签是否与箱子中大部分实例标签相同,如果相同就放入,如果不相同就形成下一个m大小的新箱子,将实例全部放入箱子后,将箱子中大多数实例标签作为箱子的标签,再将标签相同的箱子合并

4 基于卡方的离散方法:将数值特征的每个不同值看做一个区间对每个相邻的区间计算卡方统计量,如果大就合并,如果不大于阈值就停止。
5 或者基于熵的离散方法:使用合成或者分裂的方法根据熵计算和阈值判定来JUDGE是合成还是分裂。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值