连续属性离散化方法

最新推荐文章于 2024-09-04 02:26:02 发布

一个两个n多个

最新推荐文章于 2024-09-04 02:26:02 发布

阅读量6.2k

点赞数 3

分类专栏： Data Ming 文章标签：离散化方法

本文链接：https://blog.csdn.net/bug_12/article/details/96458383

版权

本文介绍了数据挖掘中将连续属性转换为离散属性的三种方法：等宽法、等频法和基于聚类分析的方法。等宽法按固定宽度划分区间，可能导致区间数据分布不均；等频法确保每个区间记录数相同，可能造成数据切割；聚类分析方法利用聚类结果进行标记，实现离散化。通过代码展示了这三种方法的应用效果。

摘要由CSDN通过智能技术生成

离散化方法

由于一些数据挖掘的算法，主要是一些分类算法，要求数据是分类的形式即是离散的。所以就需要将连续的属性变换为分类的属性，即连续的变为离散的。
常用的离散化方法有以下三种：等宽法、等频法、基于聚类分析的方法。
下面来依次简单介绍一下三种方法的原理：
等宽法主要就是将属性的值域分成具有相同宽度的区间，区间的个数由数据本身的特点决定，可能会导致一些区间数据少，一些区间数据多的情况。
等频法主要是将数量相同的记录放进每个区间，可能会将相同的数据分到不同的区间以满足每个区间中固定的数据个数。
基于聚类分析的方法:主要是用聚类算法进行聚类，然后将得到的cluster进行处理，合并到一个cluster的连续属性值做同一标记。
下面还是通过代码来进行展示：

#连续元素离散化
import pandas as pd
import matplotlib.pyplot as plt
datafile = 'G:\data\Python\chapter4\demo\data\discretization_data.xls'
data = pd.read_excel(datafile) 
data = data['肝气郁结证型系数'].copy()
k = 4
d1 = pd.cut(data,k,labels = range(k)) #等宽离散化，各个类比依次命名为0,1,2,3
#等频率离散化
w = [1.0*i/k for i in range(k+1)] #生成一个以0.25为间距的列表
w = data.describe(percentiles = w)[4:4+k+1] #用describe函数自动计算分位数