CART---回归树

最新推荐文章于 2023-11-28 23:37:14 发布

lengo

最新推荐文章于 2023-11-28 23:37:14 发布

阅读量1.3k

点赞数

分类专栏：数据挖掘

本文链接：https://blog.csdn.net/lengo/article/details/79010451

版权

数据挖掘专栏收录该内容

27 篇文章 3 订阅

订阅专栏

本算法根据《机器学习实战》改编而来，对回归树的详细说明请参照原书，数据的下载地址 https://pan.baidu.com/s/1gfKrBqj，

以下为Matlab程序主程序：

clc;
clear;
%加载测试数据文件，前两列为坐标值，后两列为类标号
fileID = fopen('D:\matlabFile\CART\CART.txt');
DS=textscan(fileID,'%f %f');
fclose(fileID);
%将数据转为矩阵形式
Dataset=cat(2,DS{1},DS{2});
%用户设定参数
ops=[1,4];
%创建树
R=CreateTree(Dataset,ops);
DataSet=R{1,2};
SDS1=DataSet{1,1};
SDS2=DataSet{1,2};
%显示分组的数据集
scatter(SDS1(:,1),SDS1(:,2),'filled');
hold on
scatter(SDS2(:,1),SDS2(:,2),'filled');

建树函数CreateTree:

function Result=CreateTree(Dataset,ops)
%选择分割特征参数
R=ChooseSplitFeature(Dataset,ops);
if R(1)==0
    Result=R(2);
    return;
end
%构造回归树,
RegTree=cell(4,1);
%第一行为特征列的索引号
RegTree{1,1}=R(1);
%第二行为该特征的门限
RegTree{2,1}=R(2);
%根据特征值拆分数据集
DS=SplitDataset(Dataset,R(1),R(2));
%第三行存放左子树
RegTree{3,1}=CreateTree(DS{1,1},ops);
%第四行存放右子树
RegTree{4,1}=CreateTree(DS{1,2},ops);
%返回树以及拆分后的数据集
Result={RegTree,DS};
end

选择分割的特征的参数索引ChooseSplitFeature：

function Result=ChooseSplitFeature(Dataset,ops)
TolS=ops(1);
TolN=ops(2);
%如果最后一列只有一个相同的值，返回
if length(unique(Dataset(:,end)))==1
    Result=[0,mean(Dataset(:,end))];
    return;
end
[Row,Column]=size(Dataset);
%计算最后一列的方差
S=(var(Dataset(:,end)))*Row;
BestS=Inf;Index=1;Value=0;
for FeatIndex=1:Column-1
    Col=unique(Dataset(:,FeatIndex));
    for j=1:length(Col)
        R=SplitDataset(Dataset,FeatIndex,Col(j));
        DS1=R{1,1};
        DS2=R{1,2};
        if (size(DS1,1)<TolN)||(size(DS2,1)<TolN)
            continue;
        end
        NewS=(var(DS1(:,end)))*Row+(var(DS2(:,end)))*Row;
        if NewS<BestS
            Index=FeatIndex;
            Value=Col(j);
            BestS=NewS;
        end
    end
end
if (S-BestS)<TolS
    Result=[0,mean(Dataset(:,end))];
    return;    
end
R=SplitDataset(Dataset,Index,Value);
DS1=R{1,1};
DS2=R{1,2};
if (size(DS1,1)<TolN)||(size(DS2,1)<TolN)
    Result=[0,mean(Dataset(:,end))];
    return;  
end
Result=[Index,Value];
end

数据集分割函数SplitDataset:

function DS=SplitDataset(Dataset,F,Threshold)
%取出第F个特征列
Feature=Dataset(:,F);
%获得该特征大于门限的索引号
Index1=find(Feature>Threshold);
%取出于索引号相对应的数据
DS1=Dataset(Index1,:);
%获得该特征小于门限的索引号
Index2=find(Feature<=Threshold);
%取出于索引号相对应的数据
DS2=Dataset(Index2,:);
DS={DS1,DS2};
end

下面是实验结果图，仅供参考：