数据分析笔试题收集（一）

最新推荐文章于 2025-03-06 19:02:12 发布

nilhurui

最新推荐文章于 2025-03-06 19:02:12 发布

阅读量2.1w

点赞数 15

分类专栏：知识点梳理文章标签：数据分析笔试

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/nilhurui/article/details/81346332

版权

1.请说明随机森林较一般决策树稳定的几点原因

随机森林分类的过程就是对于每个随机产生的决策树分类器，输入特征向量，森林中每棵决策树对样本进行分类，根据每个决策树的权重得到最后的分类结果。即随机森林就是由多颗决策树形成的并且随机森林是并行计算多颗决策树。
bagging的方法，多个树投票提高泛化能力
bagging中引入随机（参数、样本、特征、空间映射），避免单棵树的过拟合，提高整体泛化能力

决策树缺点和注意事项：
决策树的最大缺点是原理中的贪心算法。因此它所做的选择只能是某种意义上的局部最优选择。
若目标变量是连续变量，那么决策树就不使用了，改用回归模型
若某些自变量的类别种类较多，或者自变量是区间型时，决策树过拟合的危险会增大。这种情况需要分箱或多次模型验证，确保其具有稳定性。
对区间型变量进行分箱操作时，无论是否考虑了顺序因素，都有可能因为分箱丧失了某些重要信息，尤其是当分箱前的区间型便变量与目标变量有明显的线性关系时，这种分箱造成的损失更为明显。

2.什么是聚类分析？聚类算法有哪几种？请选择一种详细描述其计算原理和步骤

1）聚类分析是一种无监督的学习方法，根据一定条件将相对同质的样本归到一个类总（俗话说人以类聚，物以群分）
正式一点的：聚类是对点集进行考察并按照某种距离测度将他们聚成多个“簇”的过程。

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。