连续属性离散化方法

本文介绍了数据挖掘中将连续属性转换为离散属性的三种方法:等宽法、等频法和基于聚类分析的方法。等宽法按固定宽度划分区间,可能导致区间数据分布不均;等频法确保每个区间记录数相同,可能造成数据切割;聚类分析方法利用聚类结果进行标记,实现离散化。通过代码展示了这三种方法的应用效果。
摘要由CSDN通过智能技术生成

离散化方法

由于一些数据挖掘的算法,主要是一些分类算法,要求数据是分类的形式即是离散的。所以就需要将连续的属性变换为分类的属性,即连续的变为离散的。
常用的离散化方法有以下三种:等宽法、等频法、基于聚类分析的方法。
下面来依次简单介绍一下三种方法的原理:
等宽法主要就是将属性的值域分成具有相同宽度的区间,区间的个数由数据本身的特点决定,可能会导致一些区间数据少,一些区间数据多的情况。
等频法主要是将数量相同的记录放进每个区间,可能会将相同的数据分到不同的区间以满足每个区间中固定的数据个数。
基于聚类分析的方法:主要是用聚类算法进行聚类,然后将得到的cluster进行处理,合并到一个cluster的连续属性值做同一标记。
下面还是通过代码来进行展示:

#连续元素离散化
import pandas as pd
import matplotlib.pyplot as plt
datafile = 'G:\data\Python\chapter4\demo\data\discretization_data.xls'
data = pd.read_excel(datafile) 
data = data['肝气郁结证型系数'].copy()
k = 4
d1 = pd.cut(data,k,labels = range(k)) #等宽离散化,各个类比依次命名为0,1,2,3
#等频率离散化
w = [1.0*i/k for i in range(k+1)] #生成一个以0.25为间距的列表
w = data.describe(percentiles = w)[4:4+k+1] #用describe函数自动计算分位数
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值