决策树、集成学习需要掌握的内容
1. 决策树的构建思想/过程
2. 集成学习有哪几种?作用是什么?
3. 随机森林中所说的随机是什么?其效果作用是什么?
4. GBDT的构建思路是什么?
5. XGBoost和GBDT区别是什么?
1. 决策树的构建思想/过程
构建思想:仅考虑当前节点的最优划分,数据子集中类别越少越好
构建过程:1、计算当前数据集上损失函数值loss1;2、遍历所有的特征属性及其划分方式,将数据分割成不同的数据子集,然后计算数据子集的损失函数值,将所有的划分方式的损失函数值相加得到损失函数值loss2;3、选择loss1-loss2最大的那个划分方式作为当前的数据划分方式;4、对划分后的数据子集重复上述的步骤;5、当数据子集足够纯或者达到收敛条件的时候,构建结束。
熵:反应数据集的混乱程度;熵值越高,表示越混乱。基尼系数:和熵一样反映了信息的复杂度和不确定性;类别个数越少,基尼系数越低。
决策树有三种算法:ID3(分类)、C4.5(分类)、Cart(回归、分类)。
信息熵: