决策树-算法小结及常见问题

最新推荐文章于 2023-10-31 20:08:40 发布

taoKingRead

最新推荐文章于 2023-10-31 20:08:40 发布

阅读量3.3k

点赞数 1

分类专栏：机器学习文章标签：决策树算法神经网络机器学习数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/iqdutao/article/details/108716617

版权

机器学习专栏收录该内容

25 篇文章 57 订阅

订阅专栏

决策树是一个树结构（可以是二叉树或非二叉树），其每个非叶节点表示一个特征属性上的测试，每个分支代表这个特征属性在某个值域上的输出，而每个叶节点存放一个输出类别。使用决策树进行决策的过程就是从根节点开始，测试待分类项中相应的特征属性，并按照其值选择输出分支，直到到达叶子节点，将叶子节点存放的类别作为决策结果。

决策树学习通常包含这几个方面：特征选择、决策树生成、决策树剪枝、缺失值/异常值处理、决策树集成学习。

决策树-特征属性选择划分

决策树-缺失值和连续值处理及属性划分

决策树-不同的决策树模型对比

决策树-避免过拟合预剪枝和后剪枝对比区别

决策树-算法小结及常见问题

这里我们不再纠结于ID3, C4.5和 CART，我们来看看决策树算法作为一个大类别的分类回归算法的优缺点。这部分总结于scikit-learn的英文文档。

首先我们看看决策树算法的优点：

1）简单直观，生成的决策树很直观。

2）基本不需要预处理，不需要提前归一化，处理缺失值。

3）使用决策树预测的代价是O(log2m)。m为样本数，时间复杂度。

O(N*M*D)，N是sample的大小，M是feature的数量，D是树的深度。

CART生长时，把所有feature内的值都作为分裂候选，并为其计算一个评价指标（信息增益、增益比率、gini系数等），所以每层是O(N*M)，D层的树就是 O(N*M*D) ;

空间复杂度o(N + M * Split * TreeNum )：N为样本数量，M为特征数量，Split为平均每个特征的切分点数量，TreeNum为如果为随机森林，随机森林的数目数量;

4）既可以处理离散值也可以处理连续值。很多算法只是专注于离散值或者连续值。

5）可以处理多维度输出的分类问题。

6）相比于神经网络之类的黑盒分类模型，决策树在逻辑上可以得到很好的解释性。

7）可以交叉验证的剪枝来选择模型，从而提高泛化能力。

8）对于异常点（空值）的容错能力好，健壮性高。

我们再看看决策树算法的缺点:

1）决策树算法非常容易过拟合，导致泛化能力不强。可以通过设置节点最少样本数量和限制决策树深度来改进。

2）决策树会因为样本发生一点点的改动，就会导致树结构的剧烈改变。这个可以通过集成学习之类的方法解决。

3）寻找最优的决策树是一个NP难的问题，我们一般是通过启发式方法，容易陷入局部最优。可以通过集成学习之类的方法来改善。

4）有些比较复杂的关系，决策树很难学习，比如异或。这个就没有办法了，一般这种关系可以换神经网络分类方法来解决。

5）如果某些特征的样本比例过大，生成决策树容易偏向于这些特征。这个可以通过调节样本权重来改善（特别注意，在模型训练过程中，某些特征的权重排序很大，需要手动调节样本的权重来影响特征的权重，主要有样本的均衡，样本的过滤，样本权重的调节）。

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
决策树-算法小结及常见问题

这里我们不再纠结于ID3, C4.5和 CART，我们来看看决策树算法作为一个大类别的分类回归算法的优缺点。这部分总结于scikit-learn的英文文档。首先我们看看决策树算法的优点：1）简单直观，生成的决策树很直观。2）基本不需要预处理，不需要提前归一化，处理缺失值，决策树的优势特点。3）使用决策树预测的代价是O(log2m)。m为样本数，时间复杂度。O(N*M*D)，N是sample的大小，M是feature的数量，D是树的深度。CART生长时，把所有fea...
复制链接

扫一扫

专栏目录

taoKingRead CSDN认证博客专家 CSDN认证企业博客

码龄13年

37: 原创

5万+: 周排名

39万+: 总排名

38万+: 访问

: 等级

1730: 积分

192: 粉丝

472: 获赞

37: 评论

2773: 收藏

私信

关注

热门文章

分类专栏

最新评论

机器学习-梯度下降算法原理及公式推导
十242: 变量太混乱了，看不清楚，希望统一一下
机器学习-梯度下降算法原理及公式推导
Ellen364200: 讲的真好！！
机器学习-特征中的相关性及相关系数、卡方检验、互信息
三木一立: 看文章里提到的是自变量和因变量的之间的相关关系的判断。那多个特征变量之间的关系或相似度，也可以用这种Pearson，互信息方式判断吗？
机器学习-梯度下降算法原理及公式推导
TravelLight92: gradient = (h_theta*x_i - y_i)*x_i 梯度掉了一个，i表示m个样本中，第i个
机器学习-梯度下降算法原理及公式推导
TravelLight92: 总共m个样本，n个特征，k代表第多少次迭代循环： gradient = (h_theta*x_i)*x_i 可以看到，如果是MSE均方差这种，对于每一个样本，都能计算出一个梯度向量，包含了每一个系数w（与特征n数目相同，算上截距的话，得再加一个固定的1） w_k = w_(k-1) - alpha * gradient 若随机初始化，比如random(n个)的weight_0,在循环迭代的时候，下一个weight_1 ,你有m个样本数的gradient,你减哪个嘛，只能求和取平均啦

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。