机器学习大厂笔试面试5000题（101-110）

最新推荐文章于 2022-03-16 17:13:39 发布

julyedu_7

最新推荐文章于 2022-03-16 17:13:39 发布

阅读量954

点赞数

分类专栏：最新名企AI面试题文章标签：人工智能机器学习 python 算法深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/julyedu_7/article/details/121891429

版权

本文探讨了机器学习面试中的10个常见问题，包括PCA处理相关变量的策略、GBM模型组合的误区、KNN与KMeans的区别、真阳性率与召回率的关系、多重共线性验证及处理方法、Ridge回归与Lasso回归的应用场景、变量选择策略、GBM与随机森林的对比、分类树的分裂依据以及高维数据中OLS的局限性。

摘要由CSDN通过智能技术生成

问题1：给你一个数据集。该数据集包含很多变量，你知道其中一些是高度相关的。经理要求你用PCA。你会先去掉相关的变量吗？为什么？

解析1：

你可能会说不，但是这有可能是不对的。丢弃相关变量会对PCA有实质性的影响，因为有相关变量的存在，由特定成分解释的方差被放大。

例如：在一个数据集有3个变量，其中有2个是相关的。如果在该数据集上用PCA，第一主成分的方差会是与其不相关变量的差异的两倍。此外，加入相关的变量使PCA错误地提高那些变量的重要性，这是有误导性的。

解析2：

如上图所示，X1和X2列是两个不相关的变量，使用PCA降维后的图如上左1灰线所示，

X3和X4是复制X2列并做小改动，PCA的结果如上中、右1灰线所示，

由图可知，使用PCA之前应该去除互相相关的变量。

问题2：花了几个小时后，现在你急于建一个高精度的模型。结果，你建了5 个GBM （Gradient Boosted Models），想着boosting算法会显示魔力。不幸的是，没有一个模型比基准模型表现得更好。最后，你决定将这些模型结合到一起。尽管众所周知，结合模型通常精度高，但你就很不幸运。你到底错在哪里？

解析：据我们所知，

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。