机器学习进阶（5）：决策树的一些Tips

最新推荐文章于 2023-04-23 23:23:31 发布

Y_蒋林志

最新推荐文章于 2023-04-23 23:23:31 发布

阅读量231

点赞数 3

分类专栏：机器学习基础课笔记文章标签：决策树机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_37233260/article/details/118616822

版权

机器学习基础课笔记专栏收录该内容

20 篇文章 6 订阅

订阅专栏

这篇笔记探讨了决策树、随机森林及其与其他弱分类器的关系。随机森林中，每个决策树的训练样本和特征选择都是随机的，这种特性使得随机森林具有较高的准确性和无偏估计能力。此外，介绍了处理样本不平衡问题的策略，包括降采样、过采样和数据合成。在决策树回归中，通过平均值来确定节点输出。

摘要由CSDN通过智能技术生成

前言

一些决策树相关的笔记，有兴趣的同学可以看看。

Tips

决策树是弱分类器，而SVM和LR是强分类器，Bagging 更适合弱分类器。
参与决策树生成的数据叫做bag，其他叫做 Out of Bag（OBB）,OBB数据可以用于取代测试集用于误差估计，精度和同规模的测试集精度相同。这样得到的参数模型是无偏估计。
随机森林的里DT1和DT2的训练样本都是不同的。在样本和特征的角度都加入随机性，特征也是起始随机选取。
随机森林/Bagging和决策树的关系：基础分类器除了选择决策树也可以选择例如Logistic回归等分类器，仍然可以认为是“Random Forest”。
随机森林的里DT1和DT2的训练样本都是不同的。在样本和特征的角度都加入随机性，特征也是起始随机选取。
样本不均衡的常用处理方法：A. 降采样：随机降采样；将多的样分为若干子类，再分别进入ML模型；基于聚类的分割。B. 过采样：将过少的样本重复采样。C. 数据合成：将过少的样本随机插值合成；D. 代价敏感学习：调整类的权重。
决策树做回归的方法：本质是求均值，在决策树左右两端的数据都归为这一端的均值。用这张图可以显示出来，红色的线为树深度为2时的回归曲线，那么其叶子结点为4，可以观察到拟合的数据被切割了4次。

在这里插入图片描述

关注

3
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Y_蒋林志 CSDN认证博客专家 CSDN认证企业博客

码龄8年

47: 原创

2867: 周排名

113万+: 总排名

17万+: 访问

: 等级

2084: 积分

2万+: 粉丝

711: 获赞

315: 评论

1921: 收藏

私信

关注

热门文章

分类专栏

最新评论

通俗理解循环神经网络（RNN）和LSTM（李宏毅视频课笔记整理）
lilyhasmagic: 有PPT吗
使用Pytorch搭建CNN模型完成食物图片分类（李宏毅视频课2020作业3，附超详细代码讲解）
lnsgdsg: 然后我发现我的文件路径有中文，把中文改了就可以运行了
使用Pytorch搭建CNN模型完成食物图片分类（李宏毅视频课2020作业3，附超详细代码讲解）
lnsgdsg: 同，我chat了一下说是：常见导致这个错误的原因有：传入的图像是空的或大小为零。在调用 cv2.resize() 前，确保图像数据存在且大小不为空。图像的尺寸参数传入错误。确保传入的尺寸参数是有效的，例如宽度和高度都大于零。使用的图像文件格式不受支持。在某些情况下，OpenCV 可能无法处理某些图像文件格式，导致无法读取图像数据。要解决这个错误，你可以检查以下几点：确保你的图像数据存在且大小不为空。确保传入 cv2.resize() 函数的尺寸参数是有效的。如果是从文件加载图像，请检查图像文件是否存在，并且使用支持的图像格式（如 JPG、PNG 等）。如果你能提供出错代码的相关部分，我可以帮你更具体地分析和解决这个问题。
使用Pytorch搭建CNN模型完成食物图片分类（李宏毅视频课2020作业3，附超详细代码讲解）
snowy1205: 这个代码大概运行了多久啊，我这边一共30轮，一轮就要十几分钟（CPU计算），这种情况能优化不？
机器学习基础（4）：朴素贝叶斯算法（附python代码和详细注释）
夏羽菲: from sklearn.datasets import fetch_20newsgroups from sklearn.model_selection import train_test_split from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.naive_bayes import MultinomialNB from sklearn.metrics import classification_report def naivebayes(): """ 朴素贝叶斯进行文本分类 :return: None """ news = fetch_20newsgroups(subset="all") # 对数据集进行划分 x_train, x_test, y_train, y_test = train_test_split(news.data, news.target, test_size=0.25) # 对数据集进行特征抽取 tf = TfidfVectorizer() x_train = tf.fit_transform(x_train) # 打印特征名称（如果有需要的话） # print(tf.get_feature_names()) x_test = tf.transform(x_test) # 进行朴素贝叶斯算法 mlt = MultinomialNB(alpha=1.0) mlt.fit(x_train, y_train) # 打印训练数据的稀疏表示（如果有需要的话） # print(x_train.toarray()) y_predict = mlt.predict(x_test) print("预测的文章类别为：", y_predict) # 获得准确率 print("准确率为：", mlt.score(x_test, y_test)) print("每个类别的精确率和召回率", classification_report(y_test, y_predict, target_names=news.target_names)) return None if __name__ == "__main__": naivebayes()

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。