机器学习实战之数回归，CART算法

最新推荐文章于 2020-12-26 14:15:39 发布

Liu_Genie

最新推荐文章于 2020-12-26 14:15:39 发布

阅读量497

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/mophistoliu/article/details/78348141

版权

机器学习专栏收录该内容

10 篇文章 0 订阅

订阅专栏

最近在看机械学习实战，发现上面的代码较旧，在实际码代码的过程中，也发现了一些语法或者逻辑错误。所以把相关的代码放上来以供大家参考。python版本为3.6

CART算法：通过不停地对数据集进行数回归分类，降低数据集的总方差。

1. 首先需要载入数据:

这里需要做一下修改，把map的内容展开成list拼接到输出。

def loadDataSet(fileName):
    dataMat = []
    fr = open(fileName)
    for line in fr.readlines():
        curLine = line.strip().split('\t')
        fltLine = map(float, curLine)
        dataMat.append(list(fltLine))
    return dataMat

2. 对数据进行拆分：

原文中截取了拆分后两部分的第一行值。而实际需要的是整个拆分集。故把原文代码中后面的[0]去掉。

def binSplitDataSet(dataSet, feature, value):
    mat0 = dataSet[nonzero(dataSet[:, feature] > value)[0], :]
    mat1 = dataSet[nonzero(dataSet[:, feature] <= value)[0], :]
    return mat0, mat1

3. 实现选择最优拆分函数chooseBestSplit

def chooseBestSplit(dataSet, leafType=regLeaf, errType=regErr, ops=(1,4)):
    tolS = ops[0] ##容许的误差下降值
    tolN = ops[1] ##最少的样本数
    if len(set(dataSet[:, -1].T.tolist()[0])) == 1:  ##当目标值只有一种取值，不需要继续划分
        return None, leafType(dataSet)
    m,n = shape(dataSet)
    S = errType(dataSet)
    bestS = inf
    bestIndex = 0
    bestValue = 0
    for featIndex in range(n-1):
        for splitVal in set(dataSet[:, featIndex].T.tolist()[0]):  ##原文未转化成set可以处理的格式
            mat0, mat1 = binSplitDataSet(dataSet, featIndex, splitVal)
            if (shape(mat0)[0] < tolN) or (shape(mat1)[0] < tolN):  ##当拆分的两个数据集，样本低于最少样本时，不做拆分
                continue
            newS = errType(mat0) + errType(mat1)
            if newS < bestS:
                bestIndex = featIndex
                bestValue = splitVal
                bestS = newS
    if (S-bestS) < tolS: ##拆分之后误差值下降不够大，则不进行拆分。
        return None, leafType(dataSet)
    mat0, mat1 = binSplitDataSet(dataSet, bestIndex, bestValue)
    if (shape(mat0)[0] < tolN) or (shape(mat1)[0] < tolN):
        return None, leafType(dataSet) 
    return bestIndex, bestValue

Liu_Genie

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习实战之数回归，CART算法

最近在看机械学习实战，发现上面的代码较旧，在实际码代码的过程中，也发现了一些语法或者逻辑错误。所以把相关的代码放上来以供大家参考。python版本为3.6CART算法：通过不停地对数据集进行数回归分类，降低数据集的总方差。1. 首先需要载入数据:这里需要做一下修改，把map的内容展开成list拼接到输出。def loadDataSet(fileName):
复制链接

扫一扫

专栏目录