用C++来写一棵决策树

最新推荐文章于 2021-05-24 22:32:29 发布

eye_water

最新推荐文章于 2021-05-24 22:32:29 发布

阅读量1.7k

点赞数 2

分类专栏： c语言机器学习

本文链接：https://blog.csdn.net/eye_water/article/details/80616737

版权

本文介绍了在Windows环境下，使用C++实现决策树的过程。详细讲述了如何构造数据集，定义决策树为二叉树的结构体，数据集的拆分策略，基尼指数的计算，以及如何递归构建和预测决策树。文章最后提供了完整代码，虽然训练集正确率较低，但作为学习用途，简化了一些处理方式。

摘要由CSDN通过智能技术生成

运行环境：
window10 dev-c++5.11
决策树的实现除了，关于叶结点的类别赋值作弊了以下，其它基本依照CART生成算法实现
阅读本文之前，最好对决策树有一个认知，下文不会提到具体的步骤，建议先百度一下

训练数据集

x1,x2,x3,x4,y
3.6216,8.6661,-2.8073,-0.44699,0
4.5459,8.1674,-2.4586,-1.4621,0
3.866,-2.6383,1.9242,0.10645,0
3.4566,9.5228,-4.0112,-3.5944,1
0.32924,-4.4552,4.5718,-0.9888,1
4.3684,9.6718,-3.9606,-3.1625,1

保存为CSV文件，基于以上数据构造决策树

决策树为一棵二叉树

因此，需要定义一个结构体

struct tree{
    int index;// index
    double flag;// class
    float score;// gini score
    double value;// value = data[x][index]
    double **left_array;// left array set
    double **right_array;// right array set
    int left_size;// length(left_array)
    int right_size;// length(right_array)
    struct tree *left;// left subtree
    struct tree *right;// right right subtree
};

数据集拆分，在构造决策树时需要对数据集进行拆分，定义一个结构体

struct gini{
    int index;// index
    double value;// value = data[x][index]
    float score;// gini index
    double **left;// left array
    double **right;// right array
    int left_size;// length(left_array)
    int right_size;// length(right_size)
    struct gini *next;// 链接下一个
};

数据集拆分时，需要一个单链表来记录满足条件的数组下标

struct node{
    int data;
    struct node *next;
};

基尼指数的计算问题

$\ Gini(D, A) = \dfrac {\left| D_{1}\right| }{\left| D\right| }Gini(D1) + \dfrac {\left| D_{2}\right| }{\left| D\right| }Gini(D2)$
Gini(D1)=1−∑ki

最低0.47元/天解锁文章

eye_water

关注

2
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录