RF(分类/回归)
1.原理简介
2.算法流程
3.优缺点
4.超参数和调参
5.问题
1.原理简介:是一种bagging方法,使用CART决策树作为弱学习器,并行训练,数据采样随机,特征选择随机,所以可避免过拟合
2.算法流程:
(1)对训练集随机采样m次
(2)用采样集训练决策树模型,在训练决策树节点时,随机选择一些特征,选择这些特征最好的特征作为划分左右子树的的划分标准
(3)如果是分类算法,最终类别为投票最多的,如果是回归算法,最后结果为加权平均的结果
3.优缺点
优点: 处理高维特征,并不用做特征选择;可处理离散/连续型数据;可看出特征重要性;并行化,速度快;不易过拟合;可视化便于分析
缺点:对少量/低维数据集分类效果不一定好
4.超参数
重要参数:n_estimators,max_depth,max_features,min_samples_split,min_samples_leaf
RF框架参数:n_estimators,oob_score,criteriion
(1)n_estimators:树数量/弱学习器最大迭代次数/最大的弱学习器个数;(一般选100)
太小容易欠拟合;太大计算量太大;
树数量越多,性能越好,预测越稳定,泛化能力越强,但计算速度越慢;实际上,先越大越好,在上下浮动。一般默认100
(2)oob_score:袋外分数;(推荐设置为True)
是否采用袋外样本来评估模型的好坏,默认是False,推荐设置为True,是一种RF交叉验证方法,袋外分数反映模型拟合后的泛化能力
(3)criteriion:CART树做划分时对特征的评价标准。(一般默认)
分类:基尼系数(默认),信息增益;