机器学习面试150题：不只是考SVM xgboost 特征工程（101-153）附送【名企AI面试100题】

最新推荐文章于 2024-01-17 16:24:04 发布

niuyunpang

最新推荐文章于 2024-01-17 16:24:04 发布

阅读量4k

点赞数 1

文章标签：机器学习人工智能数据挖掘面试

本文链接：https://blog.csdn.net/niuyunpang/article/details/116800723

版权

本文介绍了机器学习面试中常见的问题，包括模型选择、优化和评估方法。针对低偏差高方差问题，推荐使用bagging算法如随机森林。讨论了PCA、KNN、KMeans、GBM、SVM、特征选择和数据预处理等主题，强调了模型的泛化能力和避免过拟合、欠拟合的重要性。同时，探讨了XGBoost、LightGBM的特性与区别，以及如何处理缺失值和异常值。文章还提到了L1、L2范数在正则化中的作用，以及决策树、梯度提升树和集成学习的概念。最后，提到了A/B测试、主成分分析PCA等实际应用中的问题。

摘要由CSDN通过智能技术生成

101、你意识到你的模型受到低偏差和高方差问题的困扰。应该使用哪种算法来解决问题呢？为什么？

低偏差意味着模型的预测值接近实际值。换句话说，该模型有足够的灵活性，以模仿训练数据的分布。貌似很好，但是别忘了，一个灵活的模型没有泛化能力。这意味着，当这个模型用在对一个未曾见过的数据集进行测试的时候，它会令人很失望。

在这种情况下，我们可以使用bagging算法（如随机森林），以解决高方差问题。

bagging算法把数据集分成重复随机取样形成的子集。然后，这些样本利用单个学习算法生成一组模型。接着，利用投票（分类）或平均（回归）把模型预测结合在一起。

看完本了觉得有用点个赞吧！添加微信：julyedukefu14，回复【6】领取最新升级版【名企AI面试100题】，礼包部分资料如下（篇幅有限，私我领取全部资料）：

在这里插入图片描述

102、给你一个数据集。该数据集包含很多变量，你知道其中一些是高度相关的。经理要求你用PCA。你会先去掉相关的变量吗？为什么？

你可能会说不，但是这有可能是不对的。丢弃相关变量会对PCA有实质性的影响，因为有相关变量的存在，由特定成分解释的方差被放大。

例如：在一个数据集有3个变量，其中有2个是相关的。如果在该数据集上用PCA，第一主成分的方差会是与其不相关变量的差异的两倍。此外，加入相关的变量使PCA错误地提高那些变量的重要性，这是有误导性的。

103、花了几个小时后，现在你急于建一个高精度的模型。结果，你建了5 个GBM （Gradient Boosted Models），想着boosting算法会显示魔力。不幸的是，没有一个模型比基准模型表现得更好。最后，你决定将这些模型结合到一起。尽管众所周知，结合模型通常精度高，但你就很不幸运。你到底错在哪里？

据我们所知，组合的学习模型是基于合并弱的学习模型来创造一个强大的学习模型的想法。但是，只有当各模型之间没有相关性的时候组合起来后才比较强大。由于我们已经试了5个 GBM，但没有提高精度，表明这些模型是相关的。

具有相关性的模型的问题是，所有的模型提供相同的信息。例如：如果模型1把User1122归类为 1，模型2和模型3很有可能会做有同样分类，即使它的实际值应该是0，因此，只有弱相关的模型结合起来才会表现更好。

104、KNN和KMEANS聚类（kmeans clustering）有什么不同？

不要被它们的名字里的“K”误导。

你应该知道，这两种算法之间的根本区别是，KMEANS本质上是无监督学习而KNN是监督学习。KMEANS是聚类算法。KNN是分类（或回归）算法。

KMEAN算法把一个数据集分割成簇，使得形成的簇是同构的，每个簇里的点相互靠近。该算法试图维持这些簇之间有足够的可分离性。由于无监督的性质，这些簇没有任何标签。

NN算法尝试基于其k（可以是任何数目）个周围邻居来对未标记的观察进行分类。它也被称为懒惰学习法，因为它涉及最小的模型训练。因此，它不用训练数据对未看见的数据集进行泛化。

105、真阳性率和召回有什么关系？写出方程式。

真阳性率=召回。是的，它们有相同的公式（TP / TP + FN）。

注意：要了解更多关于估值矩阵的知识。

七月在线价值千元电商用户行为预测实战特训，限时1元秒杀–>电商用户行为预测实战特训【机器学习集训营先导课之一】 - 七月在线 (julyedu.com)

本课程以真实的实际案例为主线，深入浅出掌握数据挖掘建模全流程，从业务分析到内容落地，助力小伙伴们快速入门。
在这里插入图片描述
👆 十二个实战项目+ 全套课件代码 +共学社群答疑 👆
限时1元秒杀