本篇的数据和代码参见:https://github.com/stonycat/ML-in-Action
本篇博客部分参考Forec blog
一、数据建模问题
前面介绍了贪心算法的决策树,构建算法是ID3,每次选取当前最佳特征来分割数据,并且按照这个特征的所有可能取值来划分,一旦切分完成,这个特征在之后的执行过程中不会再有任何用处。这种方法切分过于迅速,并且需要将连续型数据离散化后才能处理,这样就破坏了连续变量的内在性质。
二元切分法是另一种树构建算法,每次将数据集切分成两半,如果数据的某个特征满足这个切分的条件,就将这些数据放入左子树,否则右子树。CART(Classification And Regression Trees,分类回归树)使用二元切分来处理连续型变量,并用总方差取代香农熵来分析模型的效果。
使用字典存储树的数据结构,每个节点包含以下四个元素:待切分的特征、待切分的特征值、左子树、右子树。
创建树的代码可以重用,伪代码大致如下。
找到最佳的待切分特征:
如果该节点不能再分,将该节点存为叶节点
执行二元切分
在左右子树分别递归调用
二、创建回归树
binSplitDataSet通过数组过滤切分数据集,createTree递归建立树,输入参数决定树的类型,leafType给出建立叶节点的函数,因此该参数也决定了要建立的是模型树还是回归树,errType代表误差计算函数,ops是一个包含树构建所需的其他参数的元组。
from numpy import *
#载入数据
def loadDataSet(fileName):
dataMat = []
fr = open(fileName)
for line in fr.readlines():
curLine = line.strip().split('\t')
# python3不适用:fltLine = map(float,curLine) 修改为:
fltLine = list(map(float, curLine))#将每行映射成浮点数,python3返回值改变,所以需要
dataMat.append(fltLine)
return dataMat
#切分数据集为两个子集
def binSplitDataSet(dataSet, feature, value): #数据集 待切分特征 特征值
mat0 = dataSet[nonzero(dataSet[:, feature] > value)[0], :]
mat1 = dataSet[nonzero(dataSet[:, feature] <= value)[0], :]
#下面原书代码报错 index 0 is out of bounds,使用上面两行代码
#mat0 = dataSet[nonzero(dataSet[:, feature] > value)[0], :][0]
#mat1 = dataSet[nonzero(dataSet[:, feature] <= value)[0], :][0]
return mat0, mat1
#Tree结点类型:回归树
def regLeaf(dataSet):#生成叶结点,在回归树中是目标变量特征的均值
return mean(dataSet[:,-1])
#误差计算函数:回归误差
def regErr(dataSet):#计算目标的平方误差(均方误差*总样本数)
return var(dataSet[:,-1]) * shape(dataSet)[0]
#二元切分
def chooseBestSplit(dataSet, leafType=regLeaf, errType=regErr, ops=(1,4)):
#切分特征的参数阈值,用户初始设置好
tolS = ops[0] #允许的误差下降值
tolN = ops[1] #切分的最小样本数
#若所有特征值都相同,停止切分
if len(set(dataSet[:,-1].T.tolist()[0])) == 1:#倒数第一列转化成list 不重复
return None,leafType(dataSet) #如果剩余特征数为1,停止切分1。
# 找不到好的切分特征,调用regLeaf直接生成叶结点
m,n = shape(dataSet)
S = errType(dataSet)#最好的特征通过计算平均误差
bestS = inf; bestIndex = 0; bestValue = 0
for featIndex in range(n-1): #遍历数据的每个属性特征
# for splitVal in set(dataSet[:,featIndex]): python3报错修改为下面
for splitVal in set((dataSet[:, featIndex].T.A.tolist())[0]):#遍历每个特征里不同的特征值
mat0, mat1 = binSplitDataSet(dataSet, featIndex, splitVal)#对每个特征进行二元分类
if (shape(mat0)[0] < tolN) or (shape(mat1)[0] < tolN): continue
newS = errType(mat0) + errType(mat1)
if newS < bestS:#更新为误差最小的特征
bestIndex = featIndex
bestValue = splitVal
bestS = newS
#如果切分后误差效果下降不大,则取消切分,直接创建叶结点
if (S - bestS) < tolS:
return None,leafType(dataSet) #停止切分2
mat0, mat1 = binSplitDataSet(dataSet, bestIndex, bestValue)
#判断切分后子集大小,小于最小允许样本数停止切分3
if (shape(mat0)[0] < tolN) or (shape(mat1)[0] < tolN):
return None, leafType(dataSet)
return bestIndex,bestValue#返回特征编号和用于切分的特征值
#构建tree
def createTree(dataSet, leafType=regLeaf, errType=regErr, ops=(1,