1.请说明随机森林较一般决策树稳定的几点原因
随机森林分类的过程就是对于每个随机产生的决策树分类器,输入特征向量,森林中每棵决策树对样本进行分类,根据每个决策树的权重得到最后的分类结果。即随机森林就是由多颗决策树形成的并且随机森林是并行计算多颗决策树。
bagging的方法,多个树投票提高泛化能力
bagging中引入随机(参数、样本、特征、空间映射),避免单棵树的过拟合,提高整体泛化能力
决策树缺点和注意事项:
决策树的最大缺点是原理中的贪心算法。因此它所做的选择只能是某种意义上的局部最优选择。
若目标变量是连续变量,那么决策树就不使用了,改用回归模型
若某些自变量的类别种类较多,或者自变量是区间型时,决策树过拟合的危险会增大。这种情况需要分箱或多次模型验证,确保其具有稳定性。
对区间型变量进行分箱操作时,无论是否考虑了顺序因素,都有可能因为分箱丧失了某些重要信息,尤其是当分箱前的区间型便变量与目标变量有明显的线性关系时,这种分箱造成的损失更为明显。
2.什么是聚类分析?聚类算法有哪几种?请选择一种详细描述其计算原理和步骤
1)聚类分析是一种无监督的学习方法,根据一定条件将相对同质的样本归到一个类总(俗话说人以类聚,物以群分)
正式一点的:聚类是对点集进行考察并按照某种距离测度将他们聚成多个“簇”的过程。