离散化方法
由于一些数据挖掘的算法,主要是一些分类算法,要求数据是分类的形式即是离散的。所以就需要将连续的属性变换为分类的属性,即连续的变为离散的。
常用的离散化方法有以下三种:等宽法、等频法、基于聚类分析的方法。
下面来依次简单介绍一下三种方法的原理:
等宽法主要就是将属性的值域分成具有相同宽度的区间,区间的个数由数据本身的特点决定,可能会导致一些区间数据少,一些区间数据多的情况。
等频法主要是将数量相同的记录放进每个区间,可能会将相同的数据分到不同的区间以满足每个区间中固定的数据个数。
基于聚类分析的方法:主要是用聚类算法进行聚类,然后将得到的cluster进行处理,合并到一个cluster的连续属性值做同一标记。
下面还是通过代码来进行展示:
#连续元素离散化
import pandas as pd
import matplotlib.pyplot as plt
datafile = 'G:\data\Python\chapter4\demo\data\discretization_data.xls'
data = pd.read_excel(datafile)
data = data['肝气郁结证型系数'].copy()
k = 4
d1 = pd.cut(data,k,labels = range(k)) #等宽离散化,各个类比依次命名为0,1,2,3
#等频率离散化
w = [1.0*i/k for i in range(k+1)] #生成一个以0.25为间距的列表
w = data.describe(percentiles = w)[4:4+k+1] #用describe函数自动计算分位数