机器学习大厂笔试面试5000题(101-110)

本文探讨了机器学习面试中的10个常见问题,包括PCA处理相关变量的策略、GBM模型组合的误区、KNN与KMeans的区别、真阳性率与召回率的关系、多重共线性验证及处理方法、Ridge回归与Lasso回归的应用场景、变量选择策略、GBM与随机森林的对比、分类树的分裂依据以及高维数据中OLS的局限性。
摘要由CSDN通过智能技术生成

问题1:给你一个数据集。该数据集包含很多变量,你知道其中一些是高度相关的。经理要求你用PCA。你会先去掉相关的变量吗?为什么?

解析1:

你可能会说不,但是这有可能是不对的。丢弃相关变量会对PCA有实质性的影响,因为有相关变量的存在,由特定成分解释的方差被放大。

例如:在一个数据集有3个变量,其中有2个是相关的。如果在该数据集上用PCA,第一主成分的方差会是与其不相关变量的差异的两倍。此外,加入相关的变量使PCA错误地提高那些变量的重要性,这是有误导性的。

解析2:

如上图所示,X1和X2列是两个不相关的变量,使用PCA降维后的图如上左1灰线所示,

X3和X4是复制X2列并做小改动,PCA的结果如上中、右1灰线所示,

由图可知,使用PCA之前应该去除互相相关的变量。

问题2:花了几个小时后,现在你急于建一个高精度的模型。结果,你建了5 个GBM (Gradient Boosted Models),想着boosting算法会显示魔力。 不幸的是,没有一个模型比基准模型表现得更好。最后,你决定将这些模型结合到一起。 尽管众所周知,结合模型通常精度高,但你就很不幸运。你到底错在哪里?

解析:据我们所知,

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值