集成学习ensamble learning

最新推荐文章于 2024-07-18 17:39:30 发布

qq_53550248

最新推荐文章于 2024-07-18 17:39:30 发布

阅读量83

点赞数

分类专栏：机器学习文章标签：集成学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_53550248/article/details/127733537

版权

机器学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

定义：通过构建并结合多个学习器来完成任务

同质：基学习器异质：组件学习器

要获得好的集成，个体学习器应该好而不同。
假设基学习器的误差相互独立，则个体学习器数目越大，集成的错误率将指数级下降，最终趋于0.
优点：降低单个学习器可能的泛化性能不佳

降低陷入糟糕局部极小点的风险；

扩大假设空间

个体学习器之间存在强依赖关系，必须串行生成的序列化方法:Boosting
个体学习器之间不存在强依赖关系，可同时生成的并列化方法:Bagging、随机森林

随机森林

以决策树为基学习器的基础上构建bagging集成的基础上，进一步在决策树的训练过程中引入随机属性选择。

用bootstrap方法生成m个训练集
对于每个训练集，构造一颗决策树
在节点找特征进行分裂的时候，在特征中随机抽取一部分特征，在抽到的特征中间找到最优解，应用于节点，进行分裂。

实际上相当于对于样本和特征都进行了采样（如果把训练数据看成矩阵，就像实际中常见的那样，那么就是一个行和列都进行采样的过程），所以可以避免过拟合。

随机：

1、Random sampling of training data points when building trees数据集、
2、Random subsets of features considered when splitting nodes先从节点的属性集合随机选择一个包含k个属性的子集，再从该子集中选择一个最优属性用于划分

优点

简单、易于实现、
在当前所有算法中，具有极好的准确率
训练可以高度并行化，计算开销小能够有效地运行在大数据集上
能够处理具有高维特征的输入样本，而且不需要降维
能够评估各个特征在分类问题上的重要性
对于缺省值问题也能够获得很好得结果
在训练后，可以给出各个特征对于输出的重要性
由于采用了随机采样，训练出的模型的方差小，泛化能力强

缺点

很难找到合适的超参数
在某些噪音比较大的样本集上，RF模型容易陷入过拟合。
取值划分比较多的特征容易对RF的决策产生更大的影响，从而影响拟合的模型的效果。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
集成学习ensamble learning

集成学习
复制链接

扫一扫

专栏目录

qq_53550248 CSDN认证博客专家 CSDN认证企业博客

码龄4年

3: 原创

164万+: 周排名

174万+: 总排名

515: 访问

: 等级

12: 积分

1: 粉丝

0: 获赞

1: 评论

0: 收藏

私信

关注

热门文章

分类专栏

机器学习 3篇

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。