sklearn.ensemble模块里面包含的集成学习方法可以用于分类、回归以及异常检测
ensemble.AdaBoostClassfier
ensemble.AdaBoostRegressor
AdaBoost重要参数包括两部分:一个是对AdaBoost框架进行调参,一个是对弱分类器进行调参
AdaBoost框架参数
base_estimator:基学习器,默认是决策树
algorithm:只有分类adaboost有
loss:只有回归adaboost有,损失函数类型
n_estimators:学习器最大迭代次数
learning_rate:学习器的权重缩减系数
学习器的参数
max_features:划分时考虑的最大特征数
max_depth:决策树的最大深度
min_samples_split:限制子树继续划分的条件,如果某结点的样本数少于它,就不会再继续划分
min_samples_leaf:限制叶子节点最少的样本数,如果某叶子节点数目小于样本数,则会和兄弟结点一起被减掉
max_laef_nodes:最大叶子结点数,防止过拟合
ensemble.GradientBoostClassifier
ensemble.GradientBoostRegressor
GBDT重要的参数包括两个部分,一个时boosting框架的参数,一个是CART回归树的参数
boosting框架参数
n_estimators:学习器的最大迭代次数
learning_rate:每个学习器的权重缩减系数
subsample:(0,1],子采样。随机森林是有放回的采样,这里是不放回的采样
init:初始化弱学习器
loss:GBDT的损失函数,分类模型和回归模型的损失函数不一样的
CART回归树学习器的参数
max_features:划分时考虑的最大特征数
max_depth:决策树的最大深度
min_samples_split:限制子树继续划分的条件,如果某结点的样本数少于它,就不会再继续划分
min_samples_leaf:限制叶子节点最少的样本数,如果某叶子节点数目小于样本数,则会和兄弟结点一起被减掉
max_laef_nodes:最大叶子结点数,防止过拟合
ensemble.RandomForestClassifier
ensemble.RandomForestRegressor
RF随机森林需要调参的参数包括两部分,一个是Bagging框架的参数,一个是CART决策树的参数
Bagging框架的参数:
n_estimator:学习器的最大迭代初始(弱学习器的个数),
oob_score:是否采用袋外样本来评估模型的好坏,默认为False.设置为True,袋外分树可以反映模型拟合后的泛化能力。
criterion:特征划分时的评价标准
RF决策树参数
max_features:划分时考虑的最大特征数
max_depth:决策树的最大深度
min_samples_split:限制子树继续划分的条件,如果某结点的样本数少于它,就不会再继续划分
min_samples_leaf:限制叶子节点最少的样本数,如果某叶子节点数目小于样本数,则会和兄弟结点一起被减掉
max_laef_nodes:最大叶子结点数,防止过拟合