- 集成学习概念
集成学习的思想是将若干个学习器(分类器&回归器)组合之后产生一个新学习器。
弱分类器(weak learner)指那些分类准确率只稍微好于随机猜测的分类器(error
rate < 0.5); - 个体学习器概念
单个独立的基学习器 - boosting bagging
Bagging方法又叫做自举汇聚法(Bootstrap Aggregating),思想是:在原始数
据集上通过有放回的抽样的方式,重新选择出S个新数据集来分别训练S个分类器
的集成技术。也就是说这些模型的训练数据中允许存在重复数据
提升学习(Boosting)是一种机器学习技术,可以用于回归和分类的问题,它
每一步产生弱预测模型(如决策树),并加权累加到总模型中;如果每一步的弱预
测模型的生成都是依据损失函数的梯度方式的,那么就称为梯度提升(Gradient
boosting) - 结合策略(平均法,投票法,学习法)
- 随机森林思想
原理同bagging,基于信息熵/信息增益来做决策 - 随机森林的推广
Extra Tree
Totally Random Trees Embedding(TRTE)
Isolation Forest - 优缺点
RF的主要优点:
由于进行随机选择决策树划分特征列表,这样在样本维度比较高的时候,仍然具有比较高
的训练性能;
可以给出各个特征的重要性列表
由于存在随机抽样,训练出来的模型方差小,泛化能力强
RF的主要缺点:
在某些噪音比较大的特征上,RF模型容易陷入过拟合 - skl
随机森林算法梳理 任务一
最新推荐文章于 2024-04-27 12:46:43 发布
集成学习中的随机森林算法是一种强大的机器学习方法,它结合多个决策树以提高预测准确性和防止过拟合。本文介绍了随机森林的基本思想,包括弱分类器、个体学习器、Bagging与Boosting策略,以及随机森林的构建和优缺点。此外,还探讨了在sklearn库中使用RandomForestClassifier和RandomForestRegressor的参数设置,并列举了其在回归和分类问题上的应用。
摘要由CSDN通过智能技术生成