Ng机器学习系列补充：2、分类和回归树算法CART

最新推荐文章于 2023-11-28 23:37:14 发布

mmc2015

最新推荐文章于 2023-11-28 23:37:14 发布

阅读量1.6k

点赞数

分类专栏：《Machine Learning，Andrew Ng》

本文链接：https://blog.csdn.net/mmc2015/article/details/42526099

版权

本文介绍了数据挖掘十大经典算法之一的CART算法，包括其算法思想、递归划分的举例说明以及与C5.0和CHAID算法的比较。CART采用二分递归分割技术构建简洁的二叉树，通过GINI不纯度或最小二乘偏差等指标进行节点划分，并使用事后剪枝方法优化决策树结构。

摘要由CSDN通过智能技术生成

机器学习补充系列国际权威的学术组织the IEEE International Conference on Data Mining (ICDM，国际数据哇局会议) 2006年12月评选出了数据挖掘领域的十大经典算法：C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART，它们在数据挖掘领域都产生了极为深远的影响，这里对他们做一个简单介绍，仅作为对Ng机器学习教程的补充。

由于k-Means、SVM、EM、kNN、Naive Bayes在Ng的系列教程中都有涉及，所以此系列教程只涉及决策树算法C4.5、关联规则算法Apriori、网页排名算法PageRank、集成学习算法AdaBoost(Adaptive Boosting，自适应推进)、分类与回归树算法CART(Classification and Regression Trees)；另外会加上对神经网络的BP算法介绍，后续也会考虑介绍遗传算法等内容。

1）算法思想

2）递归划分举例说明

3）CART算法、C5.0算法和CHAID算法比较

1）算法思想

分类和回归树算法CART（Classification And Regression Tree）采用一种二分递归分割的技术，将当前的样本集分为两个子样本集，使得生成的的每个非叶子节点都有两个分支。因此，CART算法生成的决策树是结构简洁的二叉树。

分类树两个基本思想：利用训练样本，递归地划分自变量空间进行建树的思想；用验证数据进行剪枝。

递归划分：用变量y表示因变量（分类变量），用x1, x2, x3,...,xp表示自变量。通过递归的方式把关于自变量x的p维空间划分为不重叠的超矩形。首先，一个自变量被选择，比如xi和xi的一个值si被选择&#x

最低0.47元/天解锁文章

mmc2015

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Ng机器学习系列补充：2、分类和回归树算法CART

机器学习补充系列国际权威的学术组织the IEEE International Conference on Data Mining (ICDM，国际数据哇局会议) 2006年12月评选出了数据挖掘领域的十大经典算法：C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART，它们在数据挖掘领域都产生
复制链接

扫一扫

专栏目录