机器学习中最常见的50个问题(基础篇)

本文中,介绍了各种机器学习问题,分享其中最常见的50个问题。

什么是机器学习?

机器学习是人工智能的一个子领域,涉及算法和统计模型的开发,使计算机能够通过经验来提高其在任务中的表现。计算机可以从任务中学习,并从经验中提高性能。

基础篇

1.机器学习与一般编程有何不同?

在一般的编程中,我们有数据和逻辑,通过使用这两个我们创建答案。但是在机器学习中,我们有数据和答案,我们让机器从中学习逻辑,这样,同样的逻辑可以用来回答未来将要面临的问题。此外,有些时候,用代码编写逻辑是不可能的,所以在那些时候,机器学习成为主导,学习逻辑本身。

2.聚类算法的一些实际应用是什么?

聚类技术可用于数据科学的多个领域,如图像分类、客户细分和推荐引擎。最常见的用途之一是市场研究和客户细分,然后用于针对特定的市场群体,以扩大业务和盈利成果。

3.如何选择最佳的集群数量?

通过使用肘部方法,我们决定了我们的聚类算法必须尝试形成的聚类的最佳数量。这种方法背后的主要原理是,如果我们增加聚类的数量,误差值就会减少。但是在最佳数量的特征之后,误差值的减少是微不足道的,因此,在开始发生这种情况的点之后,我们选择该点作为算法将尝试形成的聚类的最佳数量。
在这里插入图片描述

上图中的最佳聚类数是3。

4.什么是特征工程?它如何影响模型的性能?

特征工程是指利用已有的特征开发新的特征。有时候,某些特征之间存在非常微妙的数学关系,如果适当探索,则可以使用这些数学运算开发新的特征。此外,有时会将多条信息组合在一起,并作为单个数据列提供。在这些时候,开发新的功能并使用它们可以帮助我们更深入地了解数据,以及如果衍生的功能足够重要,则有助于大大提高模型的性能。

5.什么是机器学习中的假设?

假设是通常用于监督机器学习领域的术语。由于我们有独立的特征和目标变量,我们试图找到一个近似的函数映射从特征空间的目标变量,近似映射被称为一个假设。

6.如何衡量集群的有效性?

有一些指标,如惯性(inertia)或平方误差和(SSE),轮廓分数,L1和L2分数。在所有这些指标中,惯性或平方误差和(SSE)和轮廓分数是用于测量聚类有效性的常见指标。虽然这种方法在计算成本方面相当昂贵。如果形成的簇是致密的并且分离良好,则得分高。

7.为什么我们取较小的学习率值?

较小的学习率值有助于训练过程更缓慢地逐渐收敛到全局最优值,而不是在全局最优值附近波动。这是因为较小的学习率导致每次迭代时模型权重的更新较小,这有助于确保更新更精确和稳定。
如果学习率太大,模型权重可能更新得太快,这可能导致训练过程超过全局最优值并完全错过它。

因此,为了避免这种误差值的振荡并实现模型的最佳权重,有必要使用较小的学习率值。

8.什么是机器学习中的过拟合,如何避免?

当模型学习模式以及数据中存在的噪声时,会发生过拟合,这会导致训练数据的高性能,但对于模型之前没有看到的数据,性能非常低。为了避免过拟合,我们可以使用多种方法:

  • 在验证训练停止增加的情况下,模型训练的早期停止,但训练继续进行。
  • 使用正则化方法,如L1或L2正则化,用于惩罚模型的权重,以避免过拟合。

9.为什么我们不能使用线性回归进行分类?

我们不能将线性回归用于分类任务的主要原因是线性回归的输出是连续和无界的,而分类需要离散和有界的输出值。

如果我们对分类任务使用线性回归,则误差函数图将不是凸的。凸图只有一个最小值,也称为全局最小值,但在非凸图的情况下,我们的模型有可能卡在一些局部最小值上,这些最小值可能不是全局最小值。为了避免这种陷入局部最小值的情况,我们不使用线性回归算法进行分类任务。

10.为什么要进行标准化?

为了实现模型的稳定和快速训练,我们使用标准化技术将所有特征带到一定的尺度或范围。如果我们不执行标准化,那么梯度有可能不会收敛到全局或局部最小值,并最终来回振荡。

11.精确度和召回有什么区别?

精确度是模型预测的真阳性(TP)和所有阳性样本(TP+FP)之间的比率。换句话说,精确度衡量了有多少预测的阳性示例实际上是真阳性。它是衡量模型避免误报和做出准确积极预测的能力的指标。
在这里插入图片描述

但在召回的情况下,我们计算真阳性(TP)和实际属于阳性类别的样本总数(TP+FN)的比率。查全率测量模型正确识别了多少实际的正例。它是模型避免假阴性和正确识别所有阳性示例的能力的度量。
在这里插入图片描述

12.上采样和下采样有什么区别?

在上采样方法中,我们通过从少数类中随机选择一些点来增加少数类中的样本数量,并将它们添加到数据集中,重复此过程,直到数据集对于每个类都达到平衡。但是这里有一个缺点,训练精度变得很高,因为在每个批次模型中,训练不止一次,但是在验证精度中没有观察到相同的高精度。

在下采样的情况下,我们通过选择一些随机数量的点来减少多数类中的样本数量,这些点的数量等于少数类中的数据点数量,以便分布变得平衡。在这种情况下,我们必须遭受数据丢失,这可能导致一些关键信息的丢失以及。

13.什么是数据泄露,我们如何识别它?

如果目标变量和输入特征之间存在高度相关性,则这种情况被称为数据泄漏。这是因为当我们用高度相关的特征训练我们的模型时,模型只在训练过程中获得了目标变量的大部分信息,它只需要做很少的事情就可以达到高精度。在这种情况下,该模型在训练和验证数据上都提供了相当不错的性能,但当我们使用该模型进行实际预测时,该模型的性能并没有达到标准。这就是我们如何识别数据泄漏的方法。

14.解释分类报告及其包含的指标。

分类报告使用分类指标进行评估,这些指标具有基于每个类的精确度、召回率和f1分数。

  • 精确度可以定义为分类器不将实际上为负的实例标记为正的能力。
  • 召回率是分类器找到所有正值的能力。对于每个类别,它被定义为真阳性与真阳性和假阴性之和的比率。
  • F1-score是精确度和召回率的调和平均值。
  • 支持度是用于每个类的样本数量。
  • 模型的整体准确性得分也可以用于对性能进行高级别的审查。它是正确预测总数与数据集总数之间的比率。
  • 宏平均值只是每个类的度量(精度,召回率,f1分数)值的平均值。
  • 加权平均值是通过向数据集中存在于较高数量中的那个类提供较高偏好来计算的。

15.随机森林回归量的哪些超参数有助于避免过拟合?

随机森林最重要的超参数是:

  • max_depth -有时候树的深度越大,就会产生过拟合。为了克服它,深度应该是有限的。
  • n-estimator -这是我们在森林中想要的决策树的数量。
  • min_sample_split -它是内部节点必须保存的最小样本数,以便拆分为其他节点。
  • max_leaf_nodes -它帮助模型控制节点的拆分,反过来,模型的深度也受到限制。

16.什么是偏差-方差权衡?

首先,让我们了解什么是偏差和方差:

  • 偏差是指实际值与模型预测值之间的差异。低偏差意味着模型已经学习了数据中的模式,而高偏差意味着模型无法学习数据中存在的模式,即欠拟合。
  • 方差是指模型预测准确性的变化,模型尚未在此基础上进行训练。低方差是一个很好的例子,但高方差意味着训练数据和验证数据的性能差异很大。

如果偏差太低,但方差太高,则这种情况称为过拟合。因此,在这两种情况之间找到平衡被称为偏差-方差权衡。

17.测试是否总是需要使用80:20的比例?

不,不存在数据必须以80:20的比例分割的必要条件。分割的主要目的是获得一些模型以前没有看到的数据,以便我们可以评估模型的性能。如果数据集包含50,000行数据,那么只有1000或2000行数据就足以评估模型的性能。

18.什么是主成分分析?

PCA(主成分分析)是一种无监督的机器学习降维技术,在这种技术中,我们以显着减少数据大小为代价来权衡数据的某些信息或模式。在这个算法中,我们试图保持原始数据集的方差在很大程度上,让我们说95%。对于非常高维的数据,有时甚至损失1%的方差,我们可以显着减少数据大小。通过使用该算法,我们可以进行图像压缩,可视化高维数据,以及使数据可视化容易。

19.什么是单次学习?

单次学习是机器学习中的一个概念,其中模型被训练为从单个示例中识别数据集中的模式,而不是在大型数据集上进行训练。当我们没有大数据集时,这很有用。它被应用于发现两幅图像之间的相似性和差异性。

20.曼哈顿距离和欧几里得距离有什么区别?

曼哈顿距离和欧氏距离是两种距离测量技术。

曼哈顿距离(MD)计算为沿着每个维度的两个点的坐标之间的绝对差之和。

在这里插入图片描述
欧几里得距离(ED)计算为沿着每个维度的两个点的坐标之间的平方差之和的平方根。

在这里插入图片描述

通常,这两个度量用于评估由聚类算法形成的聚类的有效性。

21.协方差和相关性有什么区别?

顾名思义,协方差为我们提供了两个变量彼此不同程度的度量。但另一方面,相关性给了我们两个变量相互关联的程度的度量。协方差可以取任何值,而相关性总是在-1和1之间。在探索性数据分析过程中使用这些指标,以从数据中获得见解。

22.一个热编码和序数编码之间的区别是什么?

热编码和序数编码都是将分类特征转换为数值特征的不同方法,不同之处在于它们的实现方式。在热编码中,我们为每个类别创建一个单独的列,并根据该行对应的值添加0或1。与热编码相反,在序数编码中,我们根据顺序或等级将类别替换为从0到n-1的数字,其中n是数据集中存在的唯一类别的数量。热编码和序数编码之间的主要区别是热编码导致数据以0和1的形式的二进制矩阵表示,当数据集之间没有顺序或排名时使用,而序数编码将类别表示为有序值。

23.如何识别模型是否过拟合训练数据?

在这一步中,将数据分为训练数据和验证数据证明。如果模型在训练数据上的性能与在验证数据上的性能相比非常高,那么我们可以说模型通过学习数据集中存在的模式和噪声来过度拟合训练数据。

24.如何使用混淆矩阵得出模型性能的结论?

混淆矩阵概括了分类模型的性能。在混淆矩阵中,我们得到四种类型的输出(在二分类问题的情况下),即TP,TN,FP和FN。正如我们所知,正方形中可能有两条对角线,这两条对角线中的一条表示模型预测和真实标签相同的数字。我们的目标也是最大化沿这些对角线的值沿着。从混淆矩阵中,我们可以计算各种评估指标,如准确率,精确率,召回率,F1得分等。

25.小提琴图有什么用?

小提琴图 (Violin Plot) 用于显示数据分布及其概率密度。这种图表结合了箱形图和密度图的特征,主要用来显示数据的分布形状。 小提琴图中间的黑色粗条表示四分位数范围,从其延伸的幼细黑线代表 95% 置信区间,中间的点则为中位数。

该可视化工具通常用于探索性数据分析步骤,以检查连续数据变量的分布。

26.箱形图中代表的五个统计指标是什么?
在这里插入图片描述

  • 最小的数字(最小值);
  • Q1第一个四分位数(25%位点值);
  • Q2中间的数字(中位值);
  • Q3第三个四分位数(75%位点值);
  • 最大的数字(最大值)

27.随机梯度下降(SGD)和梯度下降(GD)有什么区别?

在梯度下降算法中,一次在整个数据集上训练我们的模型。但是在随机梯度下降中,模型是通过一次使用一小批训练数据来训练的。如果我们使用SGD,那么就不能期望训练误差平稳下降。训练误差振荡,但经过一些训练步骤,我们可以说训练误差已经下降。此外,通过使用GD实现的最小值可以与使用SGD实现的最小值不同。据观察,通过使用SGD实现的最小值接近GD,但不相同。

28.什么是中心极限定理?

这个定理与抽样统计量及其分布有关。根据这个定理,随着样本量的增加,样本均值的抽样分布趋于正态分布。无论分布如何,如果我们从该分布中取出一些样本点并计算其平均值,则无论我们从哪个分布中取出样本点,这些平均值点的分布都将遵循正态/高斯分布。有一个条件,即样本的大小必须大于或等于30,中心极限定理才能成立。

中心极限定理指的是给定一个任意分布的总体。每次从这些总体中随机抽取 n 个抽样,一共抽 m 次。 然后把这 m 组抽样分别求出平均值。 这些平均值的分布接近正态分布。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值