Machine Learning with Scikit-Learn and Tensorflow 6.5 计算复杂度

最新推荐文章于 2024-08-08 07:55:28 发布

qinhanmin

最新推荐文章于 2024-08-08 07:55:28 发布

阅读量2.3k

点赞数

分类专栏：机器学习

机器学习专栏收录该内容

33 篇文章 0 订阅

订阅专栏

书籍信息
Hands-On Machine Learning with Scikit-Learn and Tensorflow
出版社: O’Reilly Media, Inc, USA
平装: 566页
语种: 英语
ISBN: 1491962291
条形码: 9781491962299
商品尺寸: 18 x 2.9 x 23.3 cm
ASIN: 1491962291

系列博文为书籍中文翻译
代码以及数据下载：https://github.com/ageron/handson-ml

利用决策树进行预测时需要从根结点前进到叶结点。考虑到决策树通常基本是平衡的，利用决策树进行预测需要遍历的结点数量是 $O(log_2m)$ 。因为每个结点值需要检查特定特征，所以利用决策树进行预测的时间复杂度是 $O(log_2m)$ ，与特征数量无关。所以决策树的预测非常迅速，即使是面对庞大的训练数据。

然而，决策树需要在每个结点比较所有样本的所有特征，导致决策树的训练复杂度是 $O(nmlog_2m)$ 。在训练数据集较小时，scikit-learn可以通过对数据进行预排序加速训练（设置presort=True），但是，对于庞大的训练数据集，这样的措施会降低训练的速度。

译者注：
这里的n感觉应该是特征数量。
这里的m感觉应该是样本数量。
CART生长时，把所有特征内的值都作为分裂候选，并为其计算评价指标（信息增益/基尼不纯度），所以每层是 $O(n*m)$ ， $log_2m$ 层的树就是 $O(nmlog_2m)$ 。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。