按照特征值划分数据集

创建数据集:

def createDataSet():
    dataSet = [[1, 1, 'yes'],
               [1, 1, 'yes'],
               [1, 0, 'no'],
               [0, 1, 'no'],
               [0, 1, 'no']]
    labels = ['no surfacing', 'flippers']
    return dataSet, labels

划分数据集:

def splitDataSet(dataSet, axis, value): #dataSet:待划分的数据集,axis:划分数据集的特征,value:基于分类的特征值
    retDataSet = []
    for featVec in dataSet:
        if featVec[axis] == value: #若特征值与基于分类的特征值相同
            reducedFeatVec = featVec[:axis]   #截取featVec的特征值的前面
            reducedFeatVec.extend(featVec[axis+1:]) #截取featVec的特征值的后面部分
            retDataSet.append(reducedFeatVec) #在此特征值分类下的数据
    return retDataSet

myDat, labels = createDataSet()
retDataSet = splitDataSet(myDat, 0, 0)
#按第一个特征值划分,保存第一个特征值为0的数据
print(retDataSet)

>>[[1, 'no'], [1, 'no']] 

选择最好的数据集划分方式:

def chooseBestFeatureToSplit(dataSet):
    numFeatures = len(dataSet[0])-1 #特征值的数量
    baseEntropy = calcShannonEnt(dataSet) #计算dataSet的香农熵
    bestInfoGain = 0.0
    bestFeature = -1  #最好的分类特征值
    for i in range(numFeatures):
        featList = [example[i] for example in dataSet] #将同一个特征值的所有属性都放入featList中
        uniqueVals = set(featList) #去除重复属性
        newEntropy = 0.0
        for value in uniqueVals:
            subDataSet = splitDataSet(dataSet, i, value) #将dataSet中的数据的特征值i与value中特征值属性进行对比,进行分类
            prob = len(subDataSet)/float(len(dataSet)) #属性为value的数据占总数据的百分比
            newEntropy += prob * calcShannonEnt(subDataSet) #对唯一特征值得到的所有熵按比例求和
        infoGain = baseEntropy - newEntropy #信息增益是熵的减少
        if (infoGain > bestInfoGain):
            bestInfoGain = infoGain
            bestFeature = i
    return bestFeature

myDat, labels = createDataSet()
bestFeature = chooseBestFeatureToSplit(myDat)
print(bestFeature)

>>0 #第0个特征是最好的用于划分数据集的特征
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值