最近找工作,因为觉得以前做过比赛, 觉得自己听懂xgboost,随机森林的, 今天同实验室的一个小姐姐问了我几个问题,才发现一团乱麻,连最基本的都不懂,所以整理了一下思路。这里不重点讲定义,主要说明关系。
决策树
决策树生成包含三个步骤: 特征选择 ——> 决策树生成——> 决策树修剪:
- 特征选择:理解: 根据某些规则选取使决策树性能最好的特征
1.1 信息熵
1.2 信息增益(缺点:偏向于选取值较多的特征)
1.3 信息增益比(基于信息增益的改进,克服了了上述信息增益的缺点) - 决策树生成:
2.1 ID3:在各个节点应用信息增益准测选择特征,递归构建决策树
2.2 C4.5:在ID3的基础上进行了改进,其实就是使用了信息增益比准则进行特征选择, 其余不变 - 决策树剪枝:防止过拟合
3.1 生成树建好后, 通过最小化loss function 去掉可以说使性能变差或无用的
因为决策树生成是一步一步的, 决策树生成是学习局部模型, 而剪枝是在整个生成树的基础上最小化loss function,所以剪枝是学习全局模型。
随机森林
随机森林是由多个决策树构成(M个), 每个决策树单独对数据进行预测, 最终结果取这M个决策树中类别最多的那一类。不同分类器是相互独立的。
在随机森林中,对每个决策树,加入了两个随机特征:<