Python机器学习笔记：不得不了解的机器学习面试知识点（1）

最新推荐文章于 2024-04-24 15:24:59 发布

track sun

最新推荐文章于 2024-04-24 15:24:59 发布

阅读量3k

点赞数 1

文章标签：人工智能

原文链接：http://www.cnblogs.com/wj-1314/p/9428527.html

版权

本文汇总了机器学习面试中常见的问答题和简答题，涵盖算法分类、算法原理、模型评估、数据预处理等多个方面，旨在帮助读者理解和掌握机器学习的核心知识点，提升面试准备效率。

摘要由CSDN通过智能技术生成

　　机器学习岗位的面试中通常会对一些常见的机器学习算法和思想进行提问，在平时的学习过程中可能对算法的理论，注意点，区别会有一定的认识，但是这些知识可能不系统，在回答的时候未必能在短时间内答出自己的认识，因此将机器学习中常见的原理性问题记录下来，保持对各个机器学习算法原理和特点的熟练度。

　　本文总结了机器学习一些面试题和笔试题，以便自己学习，当然了也为了方便大家，题目是网上找的额，如果有侵权请联系小编，还有，不喜勿喷，谢谢！！！

算法分类

　　下面图片是借用网友做的，很好的总结了机器学习的算法分类：

问答题

问1：协方差和相关性有什么区别？

　　答：相关性是协方差的标准化格式。协方差本身很难做比较。例如：如果我们计算工资（￥）和年龄（岁）的协方差，因为这两个变量有不同的度量，所以我们会得到不能做比较的不同的协方差。为了解决这个问题，我们计算相关性来得到一个介于-1和1之间的值，就可以忽略它们各自不同的度量。

问2：你认为把分类变量当成连续型变量会得到一个更好的预测模型吗？

　　答：为了得到更好的预测，只有在分类变量在本质上是有序的情况下才可以被当做连续型变量来处理。

问3：“买了这个的客户，也买了.....”亚马逊的建议是那种算法的结果？

　　答：这种推荐引擎的基本想法来源于协同过滤。协同过滤算法考虑用于推荐项目的“用户行为”。他们利用的是其他用户的购物行为和针对商品的交易历史记录，评分，选择和购物信息。针对商品的其他用户的行为和偏好用来推荐项目（商品）给新用户。在这中情况下，项目（商品）的特征是未知的。

问4：在K-means或者KNN，我们是用欧氏距离来计算最近的邻居之间的距离，为什么不用曼哈顿距离？

　　答：我们不用曼哈顿距离，因为它只计算水平或者垂直距离，有维度的限制。另一方面，欧氏距离可以用于任何空间的距离计算问题。因为，数据点可以存在于任何空间，欧式距离是更可行的选择。例如：想象一下国际象棋棋盘，象或者车所有的移动的由曼哈顿距离计算的，因为他们是在各自的水平和垂直方向做的运动。

问5：为什么朴素贝叶斯如此“朴素”？

　　答：因为它假定所有的特征在数据集中的作用是同样重要和独立的。正如我们所知，这个假设在现实世界中是很不真实的，因此说朴素贝叶斯真的很“朴素”。

问6：我们知道校正R2或者F值是用来评估线性回归模型的，那么用什么来评估逻辑回归模型？

　　答：我们可以使用以下方法：

　　1，由于逻辑回归是用来预测概率的，我们可以用AUC-ROC曲线以及混淆矩阵来确定其性能。

　　2，此外，在逻辑回归中类似于校正R2 的指标是AIC。AIC是对模型系数数量惩罚模型的拟合度量。因此，我们更偏爱有最小的AIC的模型。

　　3，空偏差指的是只有截距项的模型预测的响应。数值越低，模型越好。残余偏差表示由添加自变量的模型预测的响应。数值越低，模型越好。

问7：真阳性率和召回有什么关系？写出方程式。

　　答：真阳性率 == 召回他们有共同的公式（TP/（TP+FN））

问8：你是怎么理解偏差方差的平衡的？

　　答：从数学的角度来看，任何模型出现的误差可以分为三个部分。分别是：

　　偏差误差在量化平均水平之上，预测值跟实际值相差多远时有用。高偏差误差意味着我们的模型表现不太好，因为没有抓到重要的趋势。而另一方面，方差量化了在同一个观察上进行的预测是如何彼此不同的。高方差模型会过度拟合你的训练集，而在训练集以外的数据上表现很差。

问9：给你一个有1000列和1百万行的训练数据集，这个数据集是基于分类问题的。经理要求你来降低该数据集的维度以减少模型计算时间，但是你的机器内存有限，你会怎么做？（你可以自由做各种实际操作假设。）

　　答：你的面试官应该非常了解很难在有限的内存上处理高纬的数据，以下是你可以使用到的方法：

　　1，由于我们的RAM很小，首先要关闭机器上正在运行的其他程序，包括网页浏览器等，以确保大部分内存可以使用。

　　2，我们可以随机采样数据集。这意味着，我们可以创建一个较小的数据集，比如有1000个变量和30万行，然后做计算。

　　3，为了降低维度，我们可以吧数值变量和分类变量分开，同时删掉相关联的变量，对于数据变量，我们将使用相关性分析；对于分类变量，我们可以用卡方检验。

　　4，另外，我们还可以使用PAC，并挑选可以解释在数据集中有最大偏差的成分。

　　5，利用在线学习算法，如VowpalWabbit（在Python中可用）是一个不错的选择。

　　6，利用Stochastic GradientDescent（随机梯度下降法）建立线性模型也很有帮助。

　　7，我们也可以用我们对业务的理解来估计个预测变量对响应变量的影响的大小。但是，这是一个主观的方法，如果没有找到有用的预测变量可能会导致信息的显著丢失。

问10：全球平均温度的上升导致世界各地的海盗数量减少，这是否意味着海盗的数量减少引起气候变化？

　　答：不能够这样说，这是一个“因果关系和相关性”的经典案例。全球平均温度和海盗数量之间有可能有相关性，但基于这些信息，我们不能说因为全球平均气温的上升而导致了海盗的消失。我们不能断定海盗的数量减少是引起气候变化的原因，因为可能有其他因素（潜伏或混杂因素）影响这一现象。

问11：给你一个数据集，这个数据集有缺失值，且这些缺失值分布在高中值有1一个标准偏差的的范围内，百分之多少的数据不会受到影响？为什么？

　　答：大约有32%的数据将不会受到缺失值的影响。因为，由于数据分布在中位数附近，让我们先假设这是一个正态分布。我们知道，在一个正态分布中，约有68%的数据位于跟平均值（或者众数，中位数）1个标准差范围内，那么剩下的约32%的数据是不受影响的。因此，约有32%的数据将不受缺失值的影响。

问12：有监督学习和无监督学习的区别

　　有监督学习：对具有标记的训练样本进行学习，以尽可能对训练样本集外的数据进行分类预测。（LR，SVM，BP，RF，GBDT）

　　无监督学习：对未标记的样本进行训练学习，比发现这些样本中的结构知识。（KMeans，DL）

问13：正则化

　　答：正则化是针对过拟合而提出的，以为在求解模型最优的是一般优化最小的经验风险，现在在该经验风险上加上模型复杂度这一项（正则化项是模型参数向量的范数），并使用一个rate比率来权衡模型复杂度比以往经验风险的权重，如果模型复杂度越高，结构化的经验风险会越大，现在的目标就变为了结构经验风险的最优化，可以防止模型训练过度